Tri du DataFrame Pandas : Exemples et Astuces
Published on
Le DataFrame Pandas est un outil puissant pour l'analyse des données en Python. Il vous permet de stocker et de manipuler de grandes quantités de données facilement. Le tri des données est une opération courante qui est utile pour explorer et visualiser les données. Dans ce tutoriel, nous verrons comment trier les données dans un DataFrame Pandas, y compris le tri par colonne, par plusieurs colonnes, par index, et plus encore.
Vous voulez créer rapidement des visualisations de données en Python ?
PyGWalker est un projet Python Open Source qui peut vous aider à accélérer le processus d'analyse et de visualisation des données directement dans un environnement basé sur Jupyter Notebook.
PyGWalker (opens in a new tab) transforme votre DataFrame Pandas (ou votre DataFrame Polars) en une interface utilisateur visuelle où vous pouvez faire glisser et déposer des variables pour créer des graphiques facilement. Utilisez simplement le code suivant :
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Vous pouvez exécuter PyGWalker dès maintenant avec ces cahiers en ligne :
Et n'oubliez pas de nous donner une ⭐️ sur GitHub !
Qu'est-ce qu'un DataFrame Pandas ?
Un DataFrame Pandas est une structure de données tabulaire à deux dimensions qui contient des lignes et des colonnes. Il peut contenir une variété de types de données tels que des nombres, des chaînes de caractères et des dates. Vous pouvez le considérer comme une feuille de calcul ou une table SQL. C'est un moyen pratique de stocker et de manipuler des données avec Python.
Comment installer Pandas en Python ?
Avant de plonger dans le tri d'un DataFrame Pandas, vous devez vous assurer que Pandas est installé sur votre système. Vous pouvez le faire en exécutant la commande suivante dans votre terminal ou votre invite de commandes :
pip install pandas
Cela installera la dernière version de Pandas sur votre système.
Comment créer un DataFrame Pandas ?
Il existe plusieurs façons de créer un DataFrame Pandas. L'une des façons les plus courantes est de le créer à partir d'un dictionnaire de listes. Voici un exemple :
import pandas as pd
data = {'Name': ['John', 'Jane', 'Bob', 'Lisa'],
'Age': [25, 30, 45, 23],
'Salary': [50000, 60000, 80000, 40000]}
df = pd.DataFrame(data)
print(df)
Sortie :
Name Age Salary
0 John 25 50000
1 Jane 30 60000
2 Bob 45 80000
3 Lisa 23 40000
Dans cet exemple, nous avons créé un dictionnaire de trois listes, où chaque liste représente une colonne du DataFrame. Nous avons ensuite utilisé la fonction pd.DataFrame()
pour créer un DataFrame à partir du dictionnaire.
Quelle est la différence entre le tri par ordre croissant et le tri par ordre décroissant ?
Avant de commencer à trier un DataFrame Pandas, il est important de comprendre la différence entre le tri par ordre croissant et le tri par ordre décroissant. Le tri par ordre croissant signifie que les valeurs seront triées du plus bas au plus haut. Le tri par ordre décroissant signifie que les valeurs seront triées du plus haut au plus bas.
Comment trier un DataFrame Pandas par colonne ?
Le tri d'un DataFrame Pandas par colonne est une opération courante. Vous pouvez utiliser la méthode sort_values()
pour trier un DataFrame par une seule colonne. Voici un exemple :
import pandas as pd
data = {'Name': ['John', 'Jane', 'Bob', 'Lisa'],
'Age': [25, 30, 45, 23],
'Salary': [50000, 60000, 80000, 40000]}
df = pd.DataFrame(data)
# tri par colonne Age par ordre croissant
df.sort_values('Age', ascending=True, inplace=True)
print(df)
Sortie :
Name Age Salary
3 Lisa 23 40000
0 John 25 50000
1 Jane 30 60000
2 Bob 45 80000
Dans cet exemple, nous avons trié le DataFrame par la colonne "Age" par ordre croissant en utilisant la méthode sort_values()
. Nous avons défini le paramètre ascending
à True
pour trier par ordre croissant. Le paramètre inplace
est défini à True
pour modifier le DataFrame d'origine.
Puis-je trier un DataFrame Pandas par plusieurs colonnes ?
Oui, vous pouvez trier un DataFrame Pandas par plusieurs colonnes. Vous devez passer une liste de noms de colonnes à la méthode sort_values()
. Voici un exemple :
import pandas as pd
data = {'Name': ['John', 'Jane', 'Bob', 'Lisa'],
'Age': [25, 30, 45, 23],
'Salary': [50000, 60000, 80000, 40000]}
df = pd.DataFrame(data)
# tri par colonne Age par ordre croissant, puis par colonne Salary par ordre décroissant
df.sort_values(['Age', 'Salary'], ascending=[True, False], inplace=True)
print(df)
Sortie :
Name Age Salary
3 Lisa 23 40000
0 John 25 50000
1 Jane 30 60000
2 Bob 45 80000
Dans cet exemple, nous avons trié le DataFrame par la colonne "Age" en ordre croissant, puis par la colonne "Salary" en ordre décroissant. Nous avons passé une liste de noms de colonnes à la méthode sort_values()
et une liste de valeurs booléennes au paramètre ascending
pour spécifier la direction de tri pour chaque colonne.
Comment trier un DataFrame Pandas par indice ?
Vous pouvez également trier un DataFrame Pandas par son indice en utilisant la méthode sort_index()
. Voici un exemple :
import pandas as pd
data = {'Name': ['John', 'Jane', 'Bob', 'Lisa'],
'Age': [25, 30, 45, 23],
'Salary': [50000, 60000, 80000, 40000]}
df = pd.DataFrame(data)
# trier par indice en ordre décroissant
df.sort_index(ascending=False, inplace=True)
print(df)
Résultat :
Name Age Salary
3 Lisa 23 40000
2 Bob 45 80000
1 Jane 30 60000
0 John 25 50000
Dans cet exemple, nous avons trié le DataFrame par son indice en ordre décroissant en utilisant la méthode sort_index()
. Le paramètre ascending
est défini sur False
pour trier par ordre décroissant.
Comment trier un DataFrame Pandas par date ?
Le tri d'un DataFrame Pandas par date est une opération courante dans l'analyse de séries temporelles. Vous pouvez utiliser la méthode sort_values()
avec le type de données datetime
. Voici un exemple :
import pandas as pd
data = {'Date': ['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04'],
'Sales': [100, 200, 150, 300]}
df = pd.DataFrame(data)
# convertir la colonne Date en type de données datetime
df['Date'] = pd.to_datetime(df['Date'])
# trier par colonne Date en ordre croissant
df.sort_values('Date', ascending=True, inplace=True)
print(df)
Résultat :
Date Sales
0 2022-01-01 100
1 2022-01-02 200
2 2022-01-03 150
3 2022-01-04 300
Dans cet exemple, nous avons créé un DataFrame avec une colonne "Date" et une colonne "Sales". Nous avons utilisé la méthode to_datetime()
pour convertir la colonne "Date" en type de données datetime
. Nous avons ensuite utilisé la méthode sort_values()
pour trier le DataFrame par la colonne "Date" en ordre croissant.
Trier les valeurs d'un DataFrame Pandas
La méthode sort_values()
est la méthode principale pour trier un DataFrame Pandas. Elle peut trier un DataFrame par une seule colonne ou par plusieurs colonnes. Elle prend également en charge le tri par indice et par date.
Conclusion
Le tri des données dans un DataFrame Pandas est une opération essentielle pour l'analyse et la visualisation des données. Dans ce tutoriel, nous avons vu comment trier un DataFrame Pandas par colonne, par plusieurs colonnes, par indice et par date. Nous avons également discuté de la différence entre le tri par ordre croissant et décroissant. En maîtrisant ces techniques, vous pourrez manipuler les données comme un pro.