Comment créer des graphiques de distribution personnalisés avec Seaborn Displot
Published on
La visualisation des données est un aspect crucial de l'analyse des données et de l'apprentissage automatique. Elle nous permet de comprendre des ensembles de données complexes et d'en tirer des informations. Une des bibliothèques les plus populaires pour la visualisation des données en Python est Seaborn, et l'un de ses outils les plus puissants est la fonction displot
. Ce tutoriel vous guidera à travers le processus de création et de personnalisation de graphiques de distribution à l'aide de la fonction displot
de Seaborn en Python.
Le displot
de Seaborn est une fonction polyvalente qui peut créer une variété de graphiques de distribution, y compris des histogrammes, des graphiques KDE et des graphiques ECDF. C'est un outil flexible et puissant qui peut traiter à la fois des données univariées et bivariées, ce qui en fait une partie essentielle de l'arsenal de tout analyste de données. Que vous soyez un scientifique des données chevronné ou un débutant qui débute, comprendre comment utiliser displot
efficacement peut considérablement améliorer vos compétences en visualisation des données.
Qu'est-ce que Displot dans Seaborn ?
Le displot
de Seaborn est une fonction conçue pour visualiser la distribution des données. C'est une fonction flexible qui peut créer une variété de graphiques de distribution, y compris des histogrammes, des graphiques KDE et des graphiques ECDF. La fonction displot
fait partie du module "relational" de Seaborn, qui est conçu pour visualiser les relations statistiques entre les variables.
La syntaxe de base pour displot
est la suivante :
seaborn.displot(data, x=None, y=None, hue=None, row=None, col=None, weights=None, kind='hist', rug=False, rug_kws=None, log_scale=None, legend=True, palette=None, hue_order=None, hue_norm=None, color=None, col_wrap=None, row_order=None, col_order=None, height=5, aspect=1, facet_kws=None, **kwargs)
La fonction displot
prend un certain nombre d'arguments qui vous permettent de personnaliser l'apparence et le comportement de vos graphiques. Par exemple, vous pouvez spécifier le type de graphique (histogramme, KDE ou ECDF), les variables à représenter (x et y) et la variable à utiliser pour le regroupement des couleurs (hue).
Différence entre Distplot et Displot
Bien que distplot
et displot
soient tous deux des fonctions de Seaborn utilisées pour visualiser les distributions de données, il y a quelques différences clés entre les deux. La fonction distplot
était la principale fonction utilisée pour créer des histogrammes et des graphiques KDE dans les versions antérieures de Seaborn. Cependant, distplot
a été déprécié dans les versions récentes de Seaborn, et displot
est maintenant la fonction recommandée pour créer des graphiques de distribution.
La fonction displot
est plus flexible et puissante que distplot
. Elle peut traiter à la fois des données univariées et bivariées, et elle peut créer une plus grande variété de graphiques, y compris des histogrammes, des graphiques KDE, des graphiques ECDF et plus encore. De plus, displot
prend en charge l'utilisation de FacetGrid
, qui vous permet de créer plusieurs sous-graphiques dans une seule figure.
Est-ce que Seaborn est déprécié ?
Non, Seaborn n'est pas déprécié. Cependant, certaines fonctions de Seaborn, comme distplot
, ont été dépréciées dans les versions récentes. La fonction displot
est maintenant la fonction recommandée pour créer des graphiques de distribution dans Seaborn. Elle est plus flexible et puissante que distplot
, et elle est conçue pour fonctionner correctement avec le reste du module "relational" de Seaborn.
Exemples de Seaborn Displot
Pour mieux comprendre comment utiliser displot
, examinons quelques exemples. Nous commencerons par importer les bibliothèques nécessaires et charger un ensemble de données :
import seaborn as sns
import matplotlib.pyplot as plt
## Charger l'ensemble de données penguins
penguins = sns.load_dataset("penguins")
Exemple 1 : Histogramme de base
L'utilisation la plus simple de displot
consiste à créer un histogramme d'une seule variable. Voici comment vous pouvez créer un histogramme de la variable flipper_length_mm
de l'ensemble de données penguins :
sns.displot(data=penguins, x="flipper_length_mm")
plt.show()
Cela créera un histogramme de base avec une détermination automatique de la taille des bacs. Vous pouvez personnaliser le nombre de bacs en utilisant le paramètre bins
:
sns.displot(data=penguins, x="flipper_length_mm", bins=20)
plt.show()
Exemple 2 : Histogramme avec KDE
Vous pouvez également ajouter un graphique d'estimation de densité Kernel (KDE) à votre histogramme en utilisant le paramètre kde
:
sns.displot(data=penguins, x="flipper_length_mm", kde=True)
plt.show()
Le graphique KDE est une version lissée de l'histogramme, et il peut vous donner une meilleure idée de la forme de la distribution des données.
Exemple 3 : Histogramme avec FacetGrid
Une des fonctionnalités les plus puissantes de displot
est sa capacité à créer plusieurs sous-graphiques dans une seule figure à l'aide de FacetGrid
. Vous pouvez créer un sous-graphique séparé pour chaque espèce de pingouin de cette manière :
sns.displot(data=penguins, x="flipper_length_mm", col="species")
plt.show()
Cela créera un histogramme séparé pour chaque espèce de pingouin, vous permettant de comparer les distributions des longueurs de nageoires entre les espèces.
Personnalisation de Seaborn Displot
La fonction displot
de Seaborn offre une variété d'options pour personnaliser l'apparence de vos graphiques. Vous pouvez contrôler la couleur du graphique, la taille et le style des bacs, l'apparence du graphique KDE, et bien plus encore.
Exemple 4 : Personnalisation de la couleur et des bacs
Pour changer la couleur du graphique, vous pouvez utiliser le paramètre color
. Par exemple, pour créer un histogramme rouge, vous pouvez faire :
sns.displot(data=penguins, x="flipper_length_mm", color="red")
plt.show()
Vous pouvez également personnaliser la taille et le style des bacs à l'aide des paramètres binwidth
et binrange
. Par exemple, pour créer un histogramme avec des bacs de largeur 5 et une plage de 150 à 250, vous pouvez faire :
sns.displot(data=penguins, x="flipper_length_mm", binwidth=5, binrange=(150, 250))
plt.show()
Exemple 5: Personnalisation du graphique KDE
Si vous utilisez un graphique KDE, vous pouvez personnaliser son apparence en utilisant le paramètre kde_kws
. Par exemple, pour créer un graphique KDE avec une ligne plus épaisse et une couleur différente, vous pouvez faire :
sns.displot(data=penguins, x="flipper_length_mm", kde=True, kde_kws={"color": "green", "lw": 3})
plt.show()
Seaborn Displot avec plusieurs colonnes
L'une des fonctionnalités les plus puissantes de la fonction displot
de Seaborn est sa capacité à gérer plusieurs colonnes de données. Cela vous permet de créer des visualisations complexes qui peuvent révéler des motifs et des relations intéressants dans vos données.
Exemple 6: Displot avec deux variables
Pour créer un displot
avec deux variables, vous pouvez spécifier à la fois les paramètres x
et y
. Par exemple, pour créer un histogramme bivarié des variables flipper_length_mm
et body_mass_g
, vous pouvez faire :
sns.displot(data=penguins, x="flipper_length_mm", y="body_mass_g")
plt.show()
Cela créera un histogramme en 2D où l'intensité de la couleur représente le nombre de points de données dans chaque bin.
Exemple 7: Displot avec Hue
Vous pouvez également utiliser le paramètre hue
pour regrouper vos données selon une autre variable. Par exemple, pour créer un histogramme de flipper_length_mm
regroupé par species
, vous pouvez faire :
sns.displot(data=penguins, x="flipper_length_mm", hue="species")
plt.show()
Cela créera un histogramme séparé pour chaque espèce, avec des couleurs différentes pour chaque espèce.
Questions fréquemment posées
- Qu'est-ce que la fonction
displot
dans Seaborn ?
La fonction displot
dans Seaborn est une fonction flexible conçue pour visualiser la distribution des données. Elle peut créer une variété de graphiques de distribution, y compris des histogrammes, des graphiques KDE et des graphiques ECDF.
- Comment puis-je personnaliser l'apparence de mon
displot
?
Vous pouvez personnaliser l'apparence de votre displot
en utilisant divers paramètres, tels que la couleur du graphique (color
), la taille et la plage des bins (binwidth
et binrange
), et l'apparence du graphique KDE (kde_kws
).
- Puis-je utiliser
displot
avec plusieurs colonnes de données ?
Oui, displot
peut gérer plusieurs colonnes de données. Vous pouvez spécifier à la fois les paramètres x
et y
pour créer un histogramme bivarié, ou utiliser le paramètre hue
pour regrouper vos données selon une autre variable.