Comment tracer un DataFrame à l'aide de Pandas

Name: Rajiv Chandra

Published on 19/08/2023

La visualisation des données est une compétence essentielle pour toute personne travaillant avec des données. Elle vous aide à obtenir des informations sur vos données, à présenter les résultats de manière plus efficace et à communiquer des informations complexes de manière simple et visuelle. Dans ce guide, nous vous montrerons comment tracer un DataFrame à l'aide de Pandas, un puissant outil d'analyse de données en Python.

Vous souhaitez créer rapidement des visualisations de données en Python ?

PyGWalker est un projet Python open source qui peut vous aider à accélérer l'analyse et la visualisation de données directement dans un environnement basé sur Jupyter Notebook.

PyGWalker (opens in a new tab) transforme votre Dataframe Pandas (ou Polars Dataframe) en une interface utilisateur visuelle où vous pouvez faire glisser et déposer des variables pour créer facilement des graphiques. Utilisez simplement le code suivant :

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Vous pouvez exécuter PyGWalker dès maintenant avec ces notebooks en ligne :

Et n'oubliez pas de nous mettre une ⭐️ sur GitHub !

Exécuter PyGWalker dans le notebook Kaggle (opens in a new tab)	Exécuter PyGWalker dans Google Colab (opens in a new tab)	Donnez une ⭐️ à PyGWalker sur GitHub (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

Qu'est-ce que Pandas ?

Pandas est une bibliothèque open source qui fournit des structures de données et des outils d'analyse de données performants et faciles à utiliser pour Python. Elle est construite sur la bibliothèque de tracé Matplotlib (opens in a new tab), une bibliothèque de tracé populaire en Python, et offre une interface conviviale pour créer une variété de graphiques.

Quels sont les avantages d'utiliser Pandas pour la visualisation de données ?

Pandas offre plusieurs avantages pour la visualisation de données, notamment :

Une manipulation facile des ensembles de données volumineux
Une intégration avec d'autres bibliothèques Python
Une large gamme de types de graphiques
Une personnalisation pour des visualisations complexes

Quels sont les différents types de graphiques qui peuvent être créés avec Pandas ?

Pandas prend en charge une grande variété de types de graphiques, notamment :

Graphiques linéaires
Graphiques à barres
Histogrammes
Diagrammes en boîte
Graphiques de dispersion
Graphiques hexbin
Graphiques de zone
Graphiques circulaires

Comment importer des bibliothèques et des ensembles de données dans Pandas ?

Avant de pouvoir commencer à tracer, vous devrez importer les bibliothèques nécessaires et charger votre ensemble de données. Voici un exemple d'importation de Pandas et de lecture d'un fichier CSV :

import pandas as pd
 
data = pd.read_csv('data.csv')

Qu'est-ce qu'un graphique linéaire dans Pandas ?

Un graphique linéaire est un type de graphique qui affiche des informations sous la forme d'une série de points de données reliés par des segments de droite. Il est utile pour visualiser les tendances et les relations entre les variables au fil du temps.

Voici un exemple de création d'un simple graphique linéaire dans Pandas :

data.plot(kind='line', x='date', y='price')

Comment créer un graphique à barres dans Pandas ?

Un graphique à barres est un type de graphique qui affiche des données à l'aide de barres rectangulaires, où la longueur des barres représente les valeurs des données. Il est utile pour visualiser des données catégoriques et comparer les valeurs entre les catégories.

Voici un exemple de création d'un simple graphique à barres dans Pandas :

data.plot(kind='bar', x='category', y='value')

Maintenant que vous avez une compréhension de base de Pandas et de ses capacités de tracé, plongeons dans quelques exemples plus avancés.

Exemple 1 : Graphique linéaire des prix mensuels des actions

Dans cet exemple, nous allons tracer les prix mensuels des actions de trois géants de la technologie : Facebook, Microsoft et Apple. Tout d'abord, nous allons importer les bibliothèques nécessaires et charger les données boursières :

import pandas as pd import matplotlib.pyplot as plt  stock_data = pd.read_csv('stock_data.csv')

Ensuite, nous allons rééchantillonner les données pour obtenir le prix moyen des actions pour chaque mois :

monthly_data = stock_data.resample('M', on='Date').mean()

Enfin, nous allons tracer les prix mensuels des actions pour chaque entreprise :

monthly_data.plot(kind='line', x='Date', y=['Facebook', 'Microsoft', 'Apple'])
plt.title("Prix mensuels des actions de Facebook, Microsoft et Apple")
plt.xlabel('Date')
plt.ylabel('Prix de l'action')
plt.legend(['Facebook', 'Microsoft', 'Apple'])
plt.show()

Ce graphique montre les tendances mensuelles des prix des actions de Facebook, Microsoft et Apple, nous permettant de comparer leurs performances au fil du temps.

Exemple 2 : Graphique à barres des ventes de produits

Dans cet exemple, nous allons créer un graphique à barres pour visualiser les ventes de différents produits dans un magasin. Tout d'abord, importons les bibliothèques nécessaires et chargeons les données de ventes :

import pandas as pd import matplotlib.pyplot as plt  sales_data = pd.read_csv('sales_data.csv')

Ensuite, nous regrouperons les données de vente par produit :

product_sales = sales_data.groupby('Product')['Sales'].sum()

Maintenant, nous allons créer un diagramme à barres pour visualiser les ventes de chaque produit :

product_sales.plot(kind='bar')
plt.title('Ventes des produits')
plt.xlabel('Produit')
plt.ylabel('Ventes')
plt.show()

Ce diagramme à barres affiche les ventes de chaque produit, ce qui facilite l'identification des produits les plus vendus dans le magasin.

Exemple 3 : Personnalisation des graphiques avec Pandas

Pandas vous permet de personnaliser vos graphiques de différentes manières, telles que le changement des couleurs, l'ajout d'étiquettes et l'ajustement de la taille du graphique. Voici un exemple de personnalisation d'un graphique linéaire avec Pandas :

import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('data.csv')
data.plot(kind='line', x='date', y='price', figsize=(10, 6), color='red', linestyle='dashed', linewidth=2)
plt.title('Graphique linéaire personnalisé')
plt.xlabel('Date')
plt.ylabel('Prix')
plt.show()

Dans cet exemple, nous avons personnalisé le graphique linéaire en changeant la couleur en rouge, en utilisant un style de ligne en pointillés et en définissant l'épaisseur de la ligne à 2. Nous avons également ajusté la taille du graphique à l'aide du paramètre "figsize".

Exemple 4 : Tracer un DataFrame Pandas avec plusieurs axes

Parfois, vous souhaiterez afficher plusieurs graphiques dans la même figure. Pandas facilite la création de sous-graphiques à l'aide du paramètre "subplots". Voici un exemple de création d'une grille 2x2 de sous-graphiques :

import pandas as pd
import matplotlib.pyplot as plt
 
data = pd.read_csv('data.csv')
 
fig, axes = plt.subplots(2, 2, figsize=(10, 6))
 
data.plot(kind='line', x='date', y='price', ax=axes[0, 0])
data.plot(kind='bar', x='category', y='value', ax=axes[0, 1])
data.plot(kind='scatter', x='date', y='price', ax=axes[1, 0])
data.plot(kind='hist', y='price', ax=axes[1, 1])
 
plt.tight_layout()
plt.show()

Dans cet exemple, nous avons créé une grille 2x2 de sous-graphiques, chacun contenant un type de graphique différent.

Exemple 5 : Ajouter des barres d'erreur à un graphique Pandas

Les barres d'erreur sont utiles pour afficher la variabilité ou l'incertitude des points de données sur un graphique. Voici un exemple d'ajout de barres d'erreur à un graphique à barres avec Pandas :

import pandas as pd
import matplotlib.pyplot as plt
 
data = pd.read_csv('data.csv')
 
data.plot(kind='bar', x='category', y='value', yerr='error')
 
plt.title('Graphique à barres avec barres d'erreur')
plt.xlabel('Catégorie')
plt.ylabel('Valeur')
plt.show()

Dans cet exemple, nous avons ajouté des barres d'erreur au graphique à barres en utilisant le paramètre "yerr", qui prend le nom de la colonne contenant les valeurs d'erreur.

Exemple 6 : Personnalisation de la légende dans un graphique Pandas

Vous pouvez personnaliser la légende dans un graphique Pandas en ajustant sa position, sa taille et d'autres propriétés. Voici un exemple de personnalisation de la légende dans un graphique linéaire :

import pandas as pd
import matplotlib.pyplot as plt
 
data = pd.read_csv('data.csv')
 
ax = data.plot(kind='line', x='date', y='price')
 
ax.legend(loc='upper right', fontsize=12, title='Price', title_fontsize=14, frameon=False)
 
plt.title('Graphique linéaire avec légende personnalisée')
plt.xlabel('Date')
plt.ylabel('Prix')
plt.show()

Dans cet exemple, nous avons personnalisé la légende en définissant sa position dans le coin supérieur droit, en modifiant la taille de la police à 12, en ajoutant un titre, en définissant la taille de la police du titre à 14 et en supprimant le cadre autour de la légende.

Exemple 7 : Gestion des données catégorielles dans un graphique Pandas

Pandas facilite la gestion des données catégorielles lors de la création de graphiques. Voici un exemple de création d'un graphique à barres à l'aide de données catégorielles :

import pandas as pd
import matplotlib.pyplot as plt
 
data = pd.read_csv('categorical_data.csv')
 
data['category'] = data['category'].astype('category')
 
data.plot(kind='bar', x='category', y='value')
 
plt.title('Graphique à barres avec données catégorielles')
plt.xlabel('Catégorie')
plt.ylabel('Valeur')
plt.show()

Dans cet exemple, nous avons converti la colonne "category" en un type de données catégorielles à l'aide de la méthode "astype", ce qui permet à Pandas de gérer correctement les données catégorielles lors de la création du graphique à barres.

Exemple 8 : Tracé de données avec des échelles différentes sur plusieurs axes

Parfois, vous souhaiterez tracer des données avec des échelles différentes sur la même figure. Vous pouvez le faire avec Pandas en utilisant plusieurs axes. Voici un exemple de création d'un graphique linéaire avec deux axes y :

import pandas as pd
import matplotlib.pyplot as plt
 
data = pd.read_csv('data.csv')
 
fig, ax1 = plt.subplots()
 
ax1.plot(data['date'], data['price'], color='blue', label='Price')
ax1.set_xlabel('Date')
ax1.set_ylabel('Price', color='blue')
ax1.tick_params(axis='y', labelcolor='blue')
 
ax2 = ax1.twinx()
 
ax2.plot(data['date'], data['volume'], color='red', label='Volume')
ax2.set_ylabel('Volume', color='red')
ax2.tick_params(axis='y', labelcolor='red')
 
fig.legend(loc='upper right')
plt.title('Graphique linéaire avec deux axes y')
plt.show()

Dans cet exemple, nous avons créé un graphique linéaire avec deux axes y, un pour le prix et un pour le volume. Les données de prix sont tracées en bleu sur l'axe y de gauche, tandis que les données de volume sont tracées en rouge sur l'axe y de droite.

Conclusion

Avec ces exemples de code, vous devriez maintenant avoir une bonne compréhension de la façon de tracer un DataFrame avec Pandas. Que vous soyez débutant ou expert, ces exemples devraient vous aider à créer des visualisations magnifiques, informatives et captivantes qui vous permettront de mieux comprendre et de communiquer vos données.

Qu'est-ce que Groupby dans Pandas?

Pandas 2.0: Quoi de neuf?

How to Fix Key Errors in Pandas: An In-Depth Guide How to Rename Column in Pandas: Clearly Explained