Wie man benutzerdefinierte Verteilungsdiagramme mit Seaborn Displot erstellt
Published on
Die Datenvisualisierung ist ein entscheidender Aspekt der Datenanalyse und des maschinellen Lernens. Sie ermöglicht es uns, komplexe Datensätze zu verstehen und Erkenntnisse daraus zu ziehen. Eine der beliebtesten Bibliotheken für Datenvisualisierung in Python ist Seaborn, und eines ihrer leistungsstärksten Werkzeuge ist die displot
-Funktion. In diesem Tutorial erfahren Sie, wie Sie mithilfe der Seaborn displot
-Funktion in Python Verteilungsdiagramme erstellen und anpassen können.
Seaborns displot
ist eine vielseitige Funktion, mit der verschiedene Arten von Verteilungsdiagrammen erstellt werden können, darunter Histogramme, KDE-Diagramme und ECDF-Diagramme. Es ist ein flexibles und leistungsstarkes Werkzeug, das sowohl univariate als auch bivariate Daten verarbeiten kann und somit ein wesentlicher Bestandteil des Werkzeugsatzes eines jeden Datenanalysten ist. Egal, ob Sie ein erfahrener Datenwissenschaftler oder Anfänger sind, der gerade erst anfängt, das Verständnis dafür, wie man displot
effektiv einsetzt, kann Ihre Datenvisualisierungsfähigkeiten erheblich verbessern.
Was ist Displot in Seaborn?
Seaborns displot
ist eine Funktion, die dazu dient, die Verteilung von Daten zu visualisieren. Es ist eine flexible Funktion, mit der verschiedene Arten von Verteilungsdiagrammen erstellt werden können, darunter Histogramme, KDE-Diagramme und ECDF-Diagramme. Die displot
-Funktion ist Teil des relational
-Moduls von Seaborn, das dazu entwickelt wurde, statistische Beziehungen zwischen Variablen zu visualisieren.
Die grundlegende Syntax für displot
lautet wie folgt:
seaborn.displot(data, x=None, y=None, hue=None, row=None, col=None, weights=None, kind='hist', rug=False, rug_kws=None, log_scale=None, legend=True, palette=None, hue_order=None, hue_norm=None, color=None, col_wrap=None, row_order=None, col_order=None, height=5, aspect=1, facet_kws=None, **kwargs)
Die displot
-Funktion nimmt eine Reihe von Argumenten, mit deren Hilfe Sie das Aussehen und Verhalten Ihrer Diagramme anpassen können. Sie können zum Beispiel die Art des Diagramms (Histogramm, KDE oder ECDF), die zu plottenden Variablen (x und y) und die Variable zur Gruppierung nach Farbe (hue) angeben.
Unterschied zwischen Distplot und Displot
Obwohl sowohl distplot
als auch displot
Seaborn-Funktionen sind, die zur Visualisierung von Datenverteilungen verwendet werden, gibt es einige wesentliche Unterschiede zwischen ihnen. Die distplot
-Funktion war die primäre Funktion zur Erstellung von Histogrammen und KDE-Diagrammen in früheren Versionen von Seaborn. Allerdings wurde distplot
in den neueren Versionen von Seaborn veraltet, und displot
ist jetzt die empfohlene Funktion zur Erstellung von Verteilungsdiagrammen.
Die displot
-Funktion ist flexibler und leistungsstärker als distplot
. Sie kann sowohl univariate als auch bivariate Daten verarbeiten und eine größere Vielfalt von Diagrammen erstellen, darunter Histogramme, KDE-Diagramme, ECDF-Diagramme und mehr. Außerdem unterstützt displot
die Verwendung von FacetGrid
, mit dem Sie mehrere Teildiagramme in einer einzigen Abbildung erstellen können.
Ist Seaborn veraltet?
Nein, Seaborn ist nicht veraltet. Allerdings wurden einige Funktionen innerhalb von Seaborn, wie zum Beispiel distplot
, in den neueren Versionen veraltet. Die displot
-Funktion ist nun die empfohlene Funktion zur Erstellung von Verteilungsdiagrammen in Seaborn. Sie ist flexibler und leistungsstärker als distplot
und wurde so entwickelt, dass sie gut mit dem restlichen relational
-Modul von Seaborn funktioniert.
Beispiele für Seaborn Displot
Um besser zu verstehen, wie man displot
verwendet, werfen wir einen Blick auf einige Beispiele. Wir beginnen damit, die erforderlichen Bibliotheken zu importieren und einen Datensatz zu laden:
import seaborn as sns
import matplotlib.pyplot as plt
## Datensatz der Pinguine laden
penguins = sns.load_dataset("penguins")
Beispiel 1: Grundlegendes Histogramm
Die einfachste Verwendung von displot
besteht darin, ein Histogramm einer einzelnen Variable zu erstellen. So können Sie beispielsweise ein Histogramm der Variable flipper_length_mm
aus dem Pinguin-Datensatz erstellen:
sns.displot(data=penguins, x="flipper_length_mm")
plt.show()
Dies erstellt ein grundlegendes Histogramm mit automatischer Bestimmung der Bin-Größe. Sie können die Anzahl der Bins mit dem Parameter bins
anpassen:
sns.displot(data=penguins, x="flipper_length_mm", bins=20)
plt.show()
Beispiel 2: Histogramm mit KDE
Sie können Ihrem Histogramm auch ein Kernel Density Estimate (KDE) Diagramm hinzufügen, indem Sie den Parameter kde
verwenden:
sns.displot(data=penguins, x="flipper_length_mm", kde=True)
plt.show()
Das KDE-Diagramm ist eine geglättete Version des Histogramms und kann Ihnen eine bessere Vorstellung von der Form der Datenverteilung geben.
Beispiel 3: FacetGrid Histogramm
Eine der leistungsstärksten Funktionen von displot
ist die Möglichkeit, mehrere Teildiagramme in einer einzigen Abbildung mithilfe von FacetGrid
zu erstellen. Sie können zum Beispiel für jede Pinguinart ein separates Teildiagramm erstellen:
sns.displot(data=penguins, x="flipper_length_mm", col="species")
plt.show()
Dies erstellt ein separates Histogramm für jede Pinguinart und ermöglicht es Ihnen, die Verteilungen der Flipperlänge zwischen den Arten zu vergleichen.
Anpassung von Seaborn Displot
Die displot
-Funktion von Seaborn bietet verschiedene Möglichkeiten zur Anpassung des Aussehens Ihrer Diagramme. Sie können die Farbe des Diagramms, die Größe und den Stil der Bins, das Aussehen des KDE-Diagramms und mehr steuern.
Beispiel 4: Anpassung von Farbe und Bins
Um die Farbe des Diagramms zu ändern, können Sie den Parameter color
verwenden. Um zum Beispiel ein rotes Histogramm zu erstellen, können Sie Folgendes tun:
sns.displot(data=penguins, x="flipper_length_mm", color="red")
plt.show()
Sie können auch die Größe und den Stil der Bins mithilfe der Parameter binwidth
und binrange
anpassen. Um zum Beispiel ein Histogramm mit Bins der Breite 5 und einem Bereich von 150 bis 250 zu erstellen, können Sie Folgendes tun:
sns.displot(data=penguins, x="flipper_length_mm", binwidth=5, binrange=(150, 250))
plt.show()
Beispiel 5: Anpassen des KDE-Plots
Wenn Sie einen KDE-Plot verwenden, können Sie sein Erscheinungsbild mit dem Parameter kde_kws
anpassen. Um beispielsweise einen KDE-Plot mit einer dickeren Linie und einer anderen Farbe zu erstellen, können Sie Folgendes tun:
sns.displot(data=penguins, x="flipper_length_mm", kde=True, kde_kws={"color": "green", "lw": 3})
plt.show()
Seaborn Displot mit mehreren Spalten
Eine der leistungsstärksten Funktionen von Seaborn's displot
Funktion ist ihre Fähigkeit, mit mehreren Spalten von Daten umzugehen. Dadurch können Sie komplexe Visualisierungen erstellen, die interessante Muster und Beziehungen in Ihren Daten aufzeigen können.
Beispiel 6: Displot mit zwei Variablen
Um ein displot
mit zwei Variablen zu erstellen, können Sie sowohl die x
als auch die y
Parameter angeben. Um beispielsweise ein bivariates Histogramm der Variablen flipper_length_mm
und body_mass_g
zu erstellen, können Sie Folgendes tun:
sns.displot(data=penguins, x="flipper_length_mm", y="body_mass_g")
plt.show()
Dadurch wird ein 2D-Histogramm erstellt, bei dem die Farbintensität die Anzahl der Datenpunkte in jedem Bin repräsentiert.
Beispiel 7: Displot mit Hue
Sie können auch den hue
Parameter verwenden, um Ihre Daten nach einer anderen Variable zu gruppieren. Um beispielsweise ein Histogramm der flipper_length_mm
gruppiert nach species
zu erstellen, können Sie Folgendes tun:
sns.displot(data=penguins, x="flipper_length_mm", hue="species")
plt.show()
Dadurch wird für jede Art ein separates Histogramm erstellt, wobei jede Art eine andere Farbe hat.
Häufig gestellte Fragen
- Was ist die
displot
Funktion in Seaborn?
Die displot
Funktion in Seaborn ist eine flexible Funktion, die entwickelt wurde, um die Verteilung von Daten zu visualisieren. Sie kann verschiedene Verteilungsdiagramme erstellen, einschließlich Histogramme, KDE-Plots und ECDF-Plots.
- Wie kann ich das Aussehen meines
displot
anpassen?
Sie können das Aussehen Ihres displot
mit verschiedenen Parametern anpassen, wie z.B. color
für die Farbe des Plots, binwidth
und binrange
für die Größe und den Bereich der Bins und kde_kws
für das Aussehen des KDE-Plots.
- Kann ich
displot
mit mehreren Spalten von Daten verwenden?
Ja, displot
kann mit mehreren Spalten von Daten umgehen. Sie können sowohl die x
als auch die y
Parameter angeben, um ein bivariates Histogramm zu erstellen, oder den hue
Parameter verwenden, um Ihre Daten nach einer anderen Variable zu gruppieren.