data-science

Bienvenu dans ce tutorie, aucours duquel nous allons découvrir la librairie pandas qui est l'une des libraire les plus importantes en python, lorsque nous voulons découvrir la data science. Avec cette librairie nous pouvons faire tout ce dont nous pouvons imaginer en data science en python:

charger les données
- csv
- excel
- text
manipuler les les données
combiner les datasets
...
tout ceci grâce à une structure qu'on appelle le DataFrame

Dans ce tutoriel, nous allons illustrer l'utilisation de pandas grâce au dataset nommé titanic.csv

Chargement d'un fichier CSV

pour un fichier, il faut d'abord importer le package, puis on fait appelle aux différentes methodes: *importer le pacage

`import pandas as pd`

* pour charger un excel:

`pd.read_excel('urlFichier')`

* pour charger un fichier html:

`pd.read_html('urlFichier')`

* pour charger un sql:

`pd.read_sql()`

* etc * pour notre fichier **csv**

`df = pd.read_csv('titanic.csv')`

Quelques fonctions utiles

La fonction head()

`df.head()`

cette fonction permet d'afficher les cinq prémières lignes d'un dataframe par defaut, mais on peut à fait indiquer le nombre de ligne qu'on affcicher si l'on souhaite.

La fonction describe()

`df.describe()`

Celle-la est une fonction de statistique qui nous permet:

d'afficher le nombre de ligne
la moyenne des colonnes qui contiennent des valeurs discretes et continue
le quartile
la median
la deviation
etc

La fonction drop

`df.drop([colonne1, colonne2, ...])`

Cette fonction permet d'éliminer les colonnes dont nous desirons exclure de notre analys. Elle prend également le paramètre inplace qui a pour True ou False qui pour rôle de supprimer directement sans créer de nouvelle variable.

La fonction dropna()

`df.dropna(axis=0)`

dropnan() permet de supprimer les valeurs manquant dans un dataset dataframe, le paramètre axis est obligatoire et il prend les valeurs 0 pour faire la suppression selon les lignes et 1 selon les colonnes.

La fonction value_counts()

elle compte le nombre de répétition de chaque valeurs dans une colonne.

La fonction groupby()

Cette fonction, nous permet de faire des analyse par groupe

L'attribut shape

il permet de renvoyer le nombre de ligne et le nombre de colonne d'un dataframe sous forme d'un tuple

L'attribut columns

cet attribut nous permet de lister toutes les colonnes d'un dataframe

L'attribut plot

nous permet de générer les graphique sur un dataframe

df.plot.scatter()
df.plot.bar()
df.plot.hist()
etc

DataFrame et Series

Dans pandas, il existe deux structures de données:

DataFrame
Serie

Series

Une Serie est une colonne dans un DataFrame dont est associé un index à chaque valeur donc une sorte de dictionnaire clée-valeur

DataFramme

Un DataFrame est un ensemble de Series donc un dataframe est un dictionnaire dont les clés sont les colonnes et les valeurs sont les Series

Les opérations sur les dataframes

En pandas nous pouvous faire des indexing et du boolean indexing à travers iloc et loc

iloc: pour dire index location
loc: pour dire location

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pandas_library.ipynb		pandas_library.ipynb
titanic.csv		titanic.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

data-science

Chargement d'un fichier CSV

`import pandas as pd`

`pd.read_excel('urlFichier')`

`pd.read_html('urlFichier')`

`pd.read_sql()`

`df = pd.read_csv('titanic.csv')`

Quelques fonctions utiles

La fonction head()

`df.head()`

La fonction describe()

`df.describe()`

La fonction drop

`df.drop([colonne1, colonne2, ...])`

La fonction dropna()

`df.dropna(axis=0)`

La fonction value_counts()

La fonction groupby()

L'attribut shape

L'attribut columns

L'attribut plot

DataFrame et Series

Series

DataFramme

Les opérations sur les dataframes

About

Releases

Packages

Languages

License

camara94/data-science

Folders and files

Latest commit

History

Repository files navigation

data-science

Chargement d'un fichier CSV

import pandas as pd

pd.read_excel('urlFichier')

pd.read_html('urlFichier')

pd.read_sql()

df = pd.read_csv('titanic.csv')

Quelques fonctions utiles

La fonction head()

df.head()

La fonction describe()

df.describe()

La fonction drop

df.drop([colonne1, colonne2, ...])

La fonction dropna()

df.dropna(axis=0)

La fonction value_counts()

La fonction groupby()

L'attribut shape

L'attribut columns

L'attribut plot

DataFrame et Series

Series

DataFramme

Les opérations sur les dataframes

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

`import pandas as pd`

`pd.read_excel('urlFichier')`

`pd.read_html('urlFichier')`

`pd.read_sql()`

`df = pd.read_csv('titanic.csv')`

`df.head()`

`df.describe()`

`df.drop([colonne1, colonne2, ...])`

`df.dropna(axis=0)`

Packages