regrouper par critères

les données et les librairies¶

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('data/titanic.csv', index_col=0)
df.head(3)

introduction¶

→

en pandas, une table de données (encore appelée dataframe) a uniquement 2 dimensions

mais elle peut indiquer, avec ces deux seules dimensions, des sous-divisions dans les données

les passagers du Titanic sont ainsi divisés

en homme/femme par la colonne Sex
en passagers de première, seconde ou troisième classe par la colonne Pclass
en survivants ou décédés par la colonne Survived
on pourrait même les diviser en classe d’âge par la colonne Age
enfants (avant 12 ans), jeunes (entre 12 et 20), adultes (entre 20 et 60), personne agées (+ de 60 ans)

des analyses mettant en exergue ces groupes de personnes peuvent être intéressantes

lors du naufrage du Titanic, valait-il mieux être une femme en première classe ou un enfant en troisième ?

on va calculer des regroupements de lignes (des partitions de la dataframe)
en utilisant la méthode pandas.DataFrame.groupby()
à laquelle on indique un ou plusieurs critères.

groupement par critère unique¶

→

le groupement (la partition) se fait par la méthode pandas.DataFrame.groupby()

prenons le seul critère de genre des passagers
de la colonne Sex

la colonne a deux valeurs: female et male

df['Sex'].unique()
-> array(['male', 'female'], dtype=object)

avec groupby pandas permet de partitionner la dataframe
en autant de sous-dataframes que de valeurs uniques dans la colonne

faisons la partition de notre dataframe en

la sous-dataframe des hommes i.e. male
la sous-dataframe des femmes i.e. female
nous pourrons alors procéder à des analyses différenciées par genre

partition par (by) l’unique colonne Sex

by_sex = df.groupby(by='Sex')

l’objet rendu par la méthode est de type pandas.DataFrameGroupBy

# le code
df['Sex'].unique()

array(['male', 'female'], dtype=object)

# le code
by_sex = df.groupby(by='Sex')
by_sex

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f97d773e7e0>

accès aux sous-dataframes¶

→

la méthode pandas.DataFrameGroupBy.size()
donne la taille des deux partitions
(dans un objet de type pandas.Series)

by_sex.size()
-> Sex
female    314
male      577
dtype: int64

l’objet pandas.DataFrameGroupBy est un objet itérable
qui vous donne les couples key, dataframe

for group, subdf in by_sex:
    print(group, subdf.shape) # subdf est de type pandas.DataFrame

-> female (314, 11)
   male (577, 11)

vous pouvez donc facilement parcourir toutes les sous-dataframes

# les tailles des morceaux
by_sex.size()

Sex
female    314
male      577
dtype: int64

# la somme est correcte
sum(by_sex.size()) == len(df)

True

# pour itérer 'à la main'
for group, subdf in by_sex:
    print(group, subdf.shape)

female (314, 11)
male (577, 11)

proxying : propagation de fonctions sur les sous-dataframes¶

→

itérer est intéressant d’un point de vue pédagogique
pour bien comprendre la nature d’un objet DataFrameGroupBy
et éventuellement inspecter son contenu de visu

mais en pratique, on peut souvent utiliser une méthode des dataframes
directement sur l’objet DataFrameGroupBy et il est rarement
nécessaire d’itérer explicitement dessus
(on n’aime pas avoir à écrire un for-Python)

dans ce cas l’objet DataFrameGroupBy se comporte comme un proxy:

il propage le traitement à ses différents morceaux
et s’arrange pour combiner les résultats

par exemple on peut extraire une colonne sur toutes les sous-dataframe
en utilisant la syntaxe group[colonne], et faire des traitements sur le résultat

# quel age ont le plus vieil homme et la plus vieille femme
by_sex['Age'].max()

ou encore on peut fabriquer une dataframe qui contient les sommes de certaines colonnes de départ, mais par sexe

# les sommes des colonnes 'Survived' et 'Fare', mais par sexe
by_sex[['Survived', 'Fare']].sum()

# souvent on traite un groupby comme une dataframe
# ce qui a l'effet d'appliquer l'opération (ici ['Age'])
# à toutes les sous-dataframe
by_sex.Age.max()

Sex
female    63.0
male      80.0
Name: Age, dtype: float64

by_sex[['Survived', 'Fare']].sum()

accéder à un groupe¶

by_sex.get_group('female').head(4)

groupement multi-critères¶

→

pour des partitions multi-critères
passez à pandas.DataFrame.groupby() une liste des colonnes

la méthode pandas.DataFrame.groupby()

calcule les valeurs distinctes de chaque colonne (comme dans le cas du critère unique)
mais ensuite il en fait le produit cartésien
on obtient ainsi les clés des groupes sous la forme de tuples

prenons les critères Pclass etSex

le premier critère a trois valeurs 1, 2 et 3 (pour les trois classes de cabines)
le second a 2 valeurs female et male

on s’attend donc aux 6 clés
(1, 'female'), (1, 'male')
(2, 'female') (2, 'male')
(3, 'female') (3, 'male')
(ou du moins à un sous-ensemble de ces 6 clés)

on regroupe

by_class_sex = df.groupby(['Pclass', 'Sex'])

utilisons size() pour voir les clés du groupement
ici tous les cas du produit cartésien sont représentés

by_class_sex.size()
->
Pclass  Sex
1       female     94
        male      122
2       female     76
        male      108
3       female    144
        male      347
dtype: int64

nous découvrons là une pandas.Series avec un index composé
qu’en pandas on appelle un MultiIndex

# le code
by_class_sex = df.groupby(['Pclass', 'Sex'])
by_class_sex.size()

Pclass  Sex   
1       female     94
        male      122
2       female     76
        male      108
3       female    144
        male      347
dtype: int64

multi-index pour les multi-critères¶

→

inspectons de plus près l’index qui est en jeu ici
partons du résultat de by_class_sex.size() qui est une pandas.Series

type(by_class_sex.size())
-> pandas.core.series.Series

son index est un MultiIndex

df_by_class_sex.size().index
->
MultiIndex([(1, 'female'),
            (1,   'male'),
            (2, 'female'),
            (2,   'male'),
            (3, 'female'),
            (3,   'male')],
           names=['Pclass', 'Sex'])

les index sont les tuples du produit cartésien
on aurait pu aussi les calculer par une compréhension Python comme ceci

{(i, j) for i in df['Pclass'].unique() for j in df['Sex'].unique()}
->
{(3, 'male'),
 (3, 'female'),
 (1, 'male'),
 (1, 'female'),
 (2, 'male'),
 (2, 'female')}

# le code
type(by_class_sex.size())

pandas.core.series.Series

df.groupby(['Pclass', 'Sex']).size().index

MultiIndex([(1, 'female'),
            (1,   'male'),
            (2, 'female'),
            (2,   'male'),
            (3, 'female'),
            (3,   'male')],
           names=['Pclass', 'Sex'])

# le code
computed_index = {(i, j) for i in df['Pclass'].unique() for j in df['Sex'].unique()}
computed_index

{(np.int64(1), 'female'),
 (np.int64(1), 'male'),
 (np.int64(2), 'female'),
 (np.int64(2), 'male'),
 (np.int64(3), 'female'),
 (np.int64(3), 'male')}

# pour vérifier
computed_index == set(df.groupby(['Pclass', 'Sex']).size().index)

True

les éléments de l’index sont des tuples¶

→

les éléments dans le MultiIndex sont des tuples Python

par exemple, nous pouvons toujours itérer sur les sous-dataframes
de la partition, sauf qu’ici ce qui décrit le groupe, c’est un 2-tuple
donc on adapterait l’itération sur ce groupby multi-critère
comme ceci

for (class_, sex), subdf in by_class_sex:
    print(f"there were {len(subdf)} {sex} in class {class_} ")

there were 94 female in class 1
there were 122 male in class 1
there were 76 female in class 2
there were 108 male in class 2
there were 144 female in class 3
there were 347 male in class 3

# le code
for (class_, sex), subdf in by_class_sex:
    print(f"there were {len(subdf)} {sex} in class {class_} ")

there were 94 female in class 1 
there were 122 male in class 1 
there were 76 female in class 2 
there were 108 male in class 2 
there were 144 female in class 3 
there were 347 male in class 3

display de `head()` avec IPython¶

→

on veut afficher les 2 premières lignes de chaque dataframe de la partition

utiliser la méthode head() avec print n’est pas aussi joli
que l’affichage de la dernière expression de la cellule

for group, subdf in by_class_sex:
    print(group, subdf.head(1))

pour retrouver la même qualité d’affichage (en html)
il faut utiliser la méthode IPython.display.display()
en important la librairie IPython

import IPython
for group, subdf in by_class_sex:
    print(group)
    IPython.display.display(subdf.head(1))

# le code : c'est moche
#for group, subdf in by_class_sex:
#    print(group, subdf.head(1))

# le code
import IPython
for group, subdf in by_class_sex:
    print(group)
    IPython.display.display(subdf.head(1))

exercice sur les partitions `groupby`¶

(déplacé en fin de notebook)

intervalles de valeurs d’une colonne¶

introduction¶

→

parfois il y a trop de valeurs différentes dans une colonne
du coup on veut faire un découpage de ces valeurs en intervalles

par exemple dans la colonne des Age

si nous faisons un groupement brutal sur cette colonne
comme nous avons 88 âges différents
cela ne donne pas d’information intéressante
mais ce serait intéressant de raisonner par classes d’âges par exemple
- ‘enfant’ jusqu’à 12 ans
- ‘jeune’ entre 12 ans (exclus) et 19 ans (inclus)
- ‘adulte’ entre 19 (exclus) et 55 ans (inclus)
- ‘+55’ les personnes de strictement plus de 55 ans

afin de classifier ainsi la colonne des ages, pandas propose la fonction pandas.cut

nous allons voir un exemple

pd.cut?

# le code (à décommenter pour essayer)
# pd.cut?

découpage en intervalles d’une colonne¶

→

avec pandas.cut nous allons créer dans notre dataframe
une nouvelle colonne qui contient les intervalles d’ages
(0, 12], (12, 19], (19, 55] et (55, 100]

pandas.cut

s’applique à une colonne de votre dataframe
vous devez précisez les bornes de vos intervalles avec le paramètre bins
les bornes min des intervalles seront exclues
la fonction retourne une nouvelle colonne

pd.cut(df['Age'], bins=[0, 12, 19, 55, 100])
->
PassengerId
552    (19.0, 55.0]
638    (19.0, 55.0]
499    (19.0, 55.0]
261             NaN   <- age inconnu au départ
395    (19.0, 55.0]
           ...
326    (19.0, 55.0]
396    (19.0, 55.0]
832     (0.0, 12.0]
Name: Age, Length: 891, dtype: category
Categories (4, interval[int64, right]): [(0, 12] < (12, 19] < (19, 55] < (55, 100]]

remarquez

on doit donner toutes les bornes des intervalles
(les bornes se comportent comme des poteaux: ici 5 bornes produisent 4 intervalles)
les bornes min des intervalles sont bien exclues
la colonne est de type category (cette catégorie est ordonnée)
des labels sont générés par défaut
les items en dehors des bornes sont transformés en nan

vous pouvez donner des labels aux intervalles avec le paramètre labels

pd.cut(df['Age'],
       bins=[0, 12, 19, 55, 100],
       labels=['child', ' young', 'adult', '55+'])

souvent on va ranger cette information dans une nouvelle colonne
et ça on sait déjà comment le faire

df['Age-class'] = pd.cut(
    df['Age'],
    bins=[0, 12, 19, 55, 100],
    labels=['child', ' young', 'adult', '55+'])

comment feriez-vous pour inspecter le type (des valeurs) de cette colonne ?
est-ce un type ordonné ?

révision
comment feriez-vous pour vous débarrasser maintenant de la colonne Age dans la dataframe

# le code
pd.cut(df['Age'], bins=[0, 12, 19, 55, 100])

PassengerId
552    (19.0, 55.0]
638    (19.0, 55.0]
499    (19.0, 55.0]
261             NaN
395    (19.0, 55.0]
           ...     
463    (19.0, 55.0]
287    (19.0, 55.0]
326    (19.0, 55.0]
396    (19.0, 55.0]
832     (0.0, 12.0]
Name: Age, Length: 891, dtype: category
Categories (4, interval[int64, right]): [(0, 12] < (12, 19] < (19, 55] < (55, 100]]

# le code
# pareil mais avec des labels ad-hoc
age_class_series = pd.cut(df['Age'], bins=[0, 12, 19, 55, 100],
       labels=['child', 'young', 'adult', '55+'])
age_class_series

PassengerId
552    adult
638    adult
499    adult
261      NaN
395    adult
       ...  
463    adult
287    adult
326    adult
396    adult
832    child
Name: Age, Length: 891, dtype: category
Categories (4, object): ['child' < 'young' < 'adult' < '55+']

# pour ranger ça dans une nouvelle colonne
df['Age-class'] = age_class_series

# le type est une catégorie, il est bien ordonné
age_class_series.dtype

CategoricalDtype(categories=['child', 'young', 'adult', '55+'], ordered=True, categories_dtype=object)

# pour effacer la colonne 'Age'
print("avant", df.columns)
del df['Age']
print("après", df.columns)
# on peut utiliser aussi df.drop
# df.drop('Age', axis=1, inplace=True)

avant Index(['Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket',
       'Fare', 'Cabin', 'Embarked', 'Age-class'],
      dtype='object')
après Index(['Survived', 'Pclass', 'Name', 'Sex', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked', 'Age-class'],
      dtype='object')

groupement avec ces intervalles¶

→

nous avons la colonne Age-classes

comme c’est un type catégorie, vous pouvez utiliser cette colonne dans un groupby

df.groupby(['Age-class', 'Survived', ])

vous avez désormais
une idée de l’utilisation de groupby
pour des recherches multi-critères sur une table de données

exercice pour les élèves avancés
calculez les taux de survie de chaque classe d’age par classes de cabines

# le code
df.groupby(['Age-class', 'Survived']).size()

/tmp/ipykernel_2542/1068646229.py:2: FutureWarning: The default of observed=False is deprecated and will be changed to True in a future version of pandas. Pass observed=False to retain current behavior or observed=True to adopt the future default and silence this warning.
  df.groupby(['Age-class', 'Survived']).size()

Age-class  Survived
child      0            29
           1            40
young      0            56
           1            39
adult      0           311
           1           199
55+        0            28
           1            12
dtype: int64

`pivot_table()`¶

→

le type d’opérations que l’on a fait dans ce notebook est fréquent
spécifiquement, on veut souvent afficher:

une valeur (précisément, une aggrégation des valeurs) d’une colonne
en fonction de deux autres colonnes (catégorielles)
qui sont utilisées dans les directions horizontale et verticale
(une colonne sera en index et l’autre en columns)

par exemple, on voudrait visualiser:

le taux de survie (la valeur à agréger)
par classe de cabine (l’index des lignes)
et par genre (les colonnes)
comme ceci:

il existe une méthode pivot_table() qui s’avère très pratique
pour faire ce genre de traitement en un seul appel
comme toujours, pensez à lire la doc avec df.pivot_table?

les paramètres les plus importants sont

values : la (ou les) colonne(s) qu’on veut regarder
ce seront les valeurs dans le tableau
index : la (ou les) colonne(s) utilisée(s) pour les lignes du résultat
columns : idem pour les colonnes
aggfunc : la fonction d’aggrégation à utiliser sur les values
il y a toujours plusieurs valeurs qui tombent dans une case du résultat
il faut les agréger; par défaut on fait la moyenne
(ce qui convient bien avec ‘Survived’)

ainsi la table ci-dessus s’obtient tout simplement comme ceci

df.pivot_table(
    values='Survived',
    index='Pclass',
    columns='Sex',
)

# df.pivot_table?

# pour obtenir la table ci-dessus

df.pivot_table(
    values='Survived',
    index='Pclass',
    columns='Sex',
)

`pivot_table()` et agrégation¶

# votre code

`pivot_table()` et multi-index¶

# relisons depuis le fichier pour être sûr d'avoir la colonne 'Age'
df = pd.read_csv('data/titanic.csv')

# votre code
# plusieurs values
# df2 = ...
# pensez à observer les index du résultat
# df2.columns
# df2.index

# votre code
# plusieurs columns
# df3 = ...
# pensez à observer les index du résultat
# df3.columns
# df3.index

# votre code
# plusieurs index
# df4 = ...
# pensez à observer les index du résultat
# df4.columns
# df4.index

exercice sur `pivot_table()`¶

df = pd.read_csv('data/wine.csv')
df.head(2)

affichez les valeurs min, max, et moyenne, de la colonne ‘magnesium’

# votre code

définissez deux catégories selon que le magnesium est en dessous ou au-dessus de la moyenne (qu’on appelle mag-low et mag-high); rangez le résultat dans une colonne mag-cat

# votre code

calculez cette table

accès aux groupes¶

→

ce n’est pas fréquemment utile, mais on peut accéder aux différents groupes, et cela principalement de deux façons

en itérant directement sur l’objet groupby
en utilisant la méthode get_group()

by_sex.groups
    ->
{'female': [499, 395, 703, 859, ...], 'male': [552, 638, 261, 811, ...]}

on peut utiliser cette information pour inspecter plus finement
le contenu du groupby

par exemple pour afficher les noms des 3 premiers membres de chaque groupe

for group, indexes in by_sex:
    print(group, df.loc[indexes[:3], 'Name'])

et pour obtenir la dataframe des femmes

by_sex.get_group('female')

# on se remet dans le contexte
df = pd.read_csv('data/titanic.csv', index_col=0)
by_sex = df.groupby(by='Sex')

# le code

# on peut itérer directement sur le groupby
for group, indexes in by_sex:
    print(f"==== {group}\n{df.loc[:, 'Name'].iloc[:3]}")

==== female
PassengerId
552                        Sharp, Mr. Percival James R
638                                Collyer, Mr. Harvey
499    Allison, Mrs. Hudson J C (Bessie Waldo Daniels)
Name: Name, dtype: object
==== male
PassengerId
552                        Sharp, Mr. Percival James R
638                                Collyer, Mr. Harvey
499    Allison, Mrs. Hudson J C (Bessie Waldo Daniels)
Name: Name, dtype: object

# le code
by_sex.get_group('female').head(3)

`groupby.filter()` - optionnel¶

pour enlever de la dataframe des lignes correspondants à des groupes qui vérifient une certaine propriété

on récupère comme résultat une dataframe (et non pas un groupby comme on aurait pu le penser)

titanic = pd.read_csv("data/titanic.csv")

df = titanic.copy()
gb = df.groupby(by=['Sex', 'Pclass'])

print(f"titanic has {len(df)} items")
for group, subdf in gb:
    print(f"group {group} has {len(subdf)} matches")

titanic has 891 items
group ('female', np.int64(1)) has 94 matches
group ('female', np.int64(2)) has 76 matches
group ('female', np.int64(3)) has 144 matches
group ('male', np.int64(1)) has 122 matches
group ('male', np.int64(2)) has 108 matches
group ('male', np.int64(3)) has 347 matches

imaginons qu’on ne veuille garder que les groupes qui ont un nombre pair de membres
c’est un peu tiré par les cheveux, mais il n’y a qu’un seul groupe avec un cardinal impair
et donc c’est facile de vérifier qu’on fait bien le travail, on doit trouver 891 - 347 = 544 éléments

on ferait alors tout simplement

# construire une dataframe ne contenant que les groupes 
# qui satisfont une certaine condition

extract = gb.filter(lambda df: len(df) %2 == 0)
print(f"the extract has {len(extract)} items left")

the extract has 544 items left

`groupby.transform()` - optionnel¶

pour appliquer aux différents groupes une fonction qui prend en compte les éléments du groupe

exemples d’application typiques:

centrer chacun des groupes autour de la moyenne (du groupe)
remplacer les NaN par la moyenne du groupe

# centrons la colonne des ages **groupe par groupe**
# avec nos 6 groupes habituels

# à nouveau ce n'est sans doute pas très utile en pratique, mais bon 

df = titanic.copy()
gb = df.groupby(by=['Sex', 'Pclass'])

# on retire à chaque Age la moyenne d'age **du groupe**

df['Age'] = gb['Age'].transform(lambda df: df-df.mean())
df.head(3)

# utilisons la même approche pour remplir les ages manquants
# par la moyenne de chaque groupe

df = titanic.copy()
gb = df.groupby(by=['Sex', 'Pclass'])

# pour pouvoir vérifier qu'on a bien fait le job
print(f"===== avant: on a {sum(df['Age'].isna())} âges indéterminés")
print(f"et les moyennes d'âges par groupe sont de")
IPython.display.display(df.pivot_table(values="Age", index="Sex", columns="Pclass"))

# on remplit
df['Age'] = df['Age'].fillna(gb['Age'].transform('mean'))

# on n'a plus de NaN et les moyennes sont inchangées
print(f"===== après: on a {sum(df['Age'].isna())} ages indéterminés")
print(f"et les moyennes d'âges par groupe sont de")
IPython.display.display(df.pivot_table(values="Age", index="Sex", columns="Pclass"))

pour résumer¶

pour faire des groupements multi-critères on utilise df.groupby()
- qui renvoie un objet de type GroupBy ou similaire
qu’on utilise généralement comme un proxy
- qui va propager les traitements sur les différents “morceaux”
- que l’on peut agréger ensuite “normalement”
lorsqu’on utilise plusieurs critères les index deviennent des MultiIndex
- c’est-à-dire dont les valeurs sont des tuples
avec pivot_table() on peut facilement obtenir des tables de synthèse
- en fait, pivot_table() utilise groupby sans le dire
- (et remet les résultats en forme grâce à unstack(), mais c’est pour les avancés...)

pour en savoir plus¶

pour creuser cette notion de stack()/unstack(), et comment pivot_table() s’en sert, voyez ce document
https://flotpython-exos-ds.readthedocs.io/en/main/pandas-howtos/pivot-unstack-groupby/HOWTO-pivot-unstack-groupby-nb.html
on recommande la lecture de cet article dans la documentation pandas, qui approfondit le sujet et notamment la notion de split-apply-combine
(qui rappelle, de loin, la notion de map-reduce)
https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html

exercice sur les partitions `groupby`¶

(déplacé en fin de notebook)

on veut calculer la partition avec, dans cet ordre, la classe Pclass, le genre Sex, et l’état de survie Survived

sans calculer la partition
proposez une manière de calculez le nombre probable de sous parties dans la partition

# votre code

calculez la partition avec pandas.DataFrame.groupby
et affichez les nombres d’items par groupe

# votre code

affichez la dataframe des entrées pour les femmes qui ont péri et qui voyagaient en 1ère classe

# votre code

révision
refaites la même extraction sans utiliser un groupby() en utilisant les conditions

# votre code

pour les élèves avancés
créez un dict avec les taux de survie par genre dans chaque classe
vous devez obtenir quelque chose de ce genre

{('female', 1): 0.96,
 ('female', 2): 0.92,
 ('female', 3): 0.5,
 ('male', 1): 0.36,
 ('male', 2): 0.15,
 ('male', 3): 0.13}

# votre code

pour les élèves avancés
créez à partir de ce dict une pandas.Series
avec comme nom 'taux de survie par genre dans chaque classe'
indice: comme tous les types en Python
pd.Series() permet de créer des objets par programme
voyez la documentation avec pd.Series?

# votre code

pandas

matplotlib et pandas

pandas

création de dataframe

les données et les librairies¶

introduction¶

groupement par critère unique¶

accès aux sous-dataframes¶

proxying : propagation de fonctions sur les sous-dataframes¶

accéder à un groupe¶

groupement multi-critères¶

multi-index pour les multi-critères¶

les éléments de l’index sont des tuples¶

display de head() avec IPython¶

exercice sur les partitions groupby¶

intervalles de valeurs d’une colonne¶

introduction¶

découpage en intervalles d’une colonne¶

groupement avec ces intervalles¶

pivot_table()¶

pivot_table() et agrégation¶

pivot_table() et multi-index¶

exercice sur pivot_table()¶

accès aux groupes¶

groupby.filter() - optionnel¶

groupby.transform() - optionnel¶

pour résumer¶

pour en savoir plus¶

exercice sur les partitions groupby¶

display de `head()` avec IPython¶

exercice sur les partitions `groupby`¶

`pivot_table()`¶

`pivot_table()` et agrégation¶

`pivot_table()` et multi-index¶

exercice sur `pivot_table()`¶

`groupby.filter()` - optionnel¶

`groupby.transform()` - optionnel¶

exercice sur les partitions `groupby`¶