Pandas DataFrame nach Index sortieren
Published on
Eine der leistungsstärksten Funktionen von Pandas ist die Möglichkeit, große Mengen von Daten leicht zu handhaben und zu manipulieren. In diesem Tutorial werden wir eine der grundlegenden Methoden in Pandas diskutieren - die Methode sort_index()
. Mit dieser Methode können wir eine Pandas DataFrame nach ihrem Index sortieren, egal ob er numerisch oder auf Zeichen basiert ist. Am Ende dieses Tutorials werden Sie ein solides Verständnis dafür haben, wie man die Methode sort_index()
verwendet, um Ihre Daten zu sortieren und Ihre Fähigkeiten zur Datenmanipulation zu verbessern.
Aber bevor wir in die Methode sort_index()
eintauchen, lassen Sie uns kurz darüber sprechen, was eine Pandas DataFrame ist.
Möchten Sie schnell Data Visualizations in Python erstellen?
PyGWalker ist ein Open-Source Python-Projekt, das dabei helfen kann, den Workflow zur Datenanalyse und -visualisierung direkt in einer Jupyter Notebook-Umgebung zu beschleunigen.
PyGWalker (opens in a new tab) verwandelt Ihre Pandas Dataframe (oder Polars Dataframe) in eine visuelle Benutzeroberfläche, in der Sie Variablen per Drag & Drop ziehen und ablegen können, um Diagramme mit Leichtigkeit zu erstellen. Verwenden Sie einfach den folgenden Code:
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Sie können PyGWalker jetzt mit diesen Online-Notebooks ausführen:
Und vergessen Sie nicht, uns auf GitHub ⭐️ zu geben!
Was ist eine Pandas DataFrame?
Eine Pandas DataFrame ist eine zweidimensionale Tabelle mit beschrifteten Zeilen und Spalten. Sie ähnelt einer Tabellenkalkulation oder einer SQL-Tabelle. In einer DataFrame repräsentieren die Zeilen Beobachtungen oder Datensätze, während die Spalten Variablen oder Merkmale repräsentieren.
Pandas basiert auf NumPy, was bedeutet, dass es unglaublich schnell ist, große Datensätze zu handhaben und zu manipulieren. Es bietet auch integrierte Methoden zur Datenbereinigung, Datenmanipulation und Datenvisualisierung.
Nun, da wir ein grundlegendes Verständnis für eine Pandas DataFrame haben, gehen wir zur Methode sort_index()
über.
Eine Pandas DataFrame nach Index sortieren
Die Methode sort_index()
wird verwendet, um eine Pandas DataFrame nach ihrem Index zu sortieren. Der Index einer DataFrame entspricht der Zeilennummer in einer Tabellenkalkulation. Er identifiziert jede Zeile in der DataFrame.
Werfen wir einen Blick auf ein Beispiel.
import pandas as pd
# ein Wörterbuch erstellen
data = {'name': ['John', 'Mark', 'Sara', 'Anna', 'Paul'],
'age': [24, 34, 21, 19, 26],
'city': ['New York', 'Paris', 'London', 'Berlin', 'San Francisco']}
# eine DataFrame erstellen
df = pd.DataFrame(data, index=['b', 'a', 'd', 'c', 'e'])
# die DataFrame nach Index sortieren
df = df.sort_index()
print(df)
Ausgabe:
name age city
a Mark 34 Paris
b John 24 New York
c Anna 19 Berlin
d Sara 21 London
e Paul 26 San Francisco
In dem obigen Beispiel haben wir ein Wörterbuch data
mit drei Schlüsseln name
, age
und city
erstellt. Wir haben dann dieses Wörterbuch verwendet, um eine DataFrame df
mit dem angegebenen Index zu erstellen.
Nachdem wir die DataFrame erstellt haben, haben wir die Methode sort_index()
verwendet, um die DataFrame nach ihrem Index zu sortieren. Wie Sie sehen können, sortiert die Methode sort_index()
die DataFrame nach dem Index in aufsteigender Reihenfolge.
Wenn wir den Index in absteigender Reihenfolge sortieren möchten, können wir die Methode sort_index(ascending=False)
verwenden.
# die DataFrame nach Index in absteigender Reihenfolge sortieren
df = df.sort_index(ascending=False)
print(df)
Ausgabe:
name age city
e Paul 26 San Francisco
d Sara 21 London
c Anna 19 Berlin
b John 24 New York
a Mark 34 Paris
Wie Sie sehen können, sortiert die Methode sort_index(ascending=False)
die DataFrame in absteigender Reihenfolge.
Eine Pandas Series nach Index sortieren
Eine Pandas Series ist ein eindimensionales beschriftetes Array. Sie ähnelt einer Spalte in einer Tabellenkalkulation. Wie eine DataFrame hat auch eine Series einen Index.
Um eine Pandas Series nach ihrem Index zu sortieren, können wir ebenfalls die Methode sort_index()
verwenden.
import pandas as pd
# ein Wörterbuch erstellen
data = {'name': ['John', 'Mark', 'Sara', 'Anna', 'Paul'],
'age': [24, 34, 21, 19, 26],
'city': ['New York', 'Paris', 'London', 'Berlin', 'San Francisco']}
# eine DataFrame erstellen
df = pd.DataFrame(data, index=['b', 'a', 'd', 'c', 'e'])
# eine Series aus der DataFrame auswählen
s = df['name']
# die Series nach ihrem Index sortieren
s = s.sort_index()
print(s)
Ausgabe:
a Mark
b John
c Anna
d Sara
e Paul
Name: name, dtype: object
Im obigen Code haben wir zunächst ein DataFrame df
mit einem spezifischen Index erstellt. Die Variable s
wählt dann die Spalte name
aus dem DataFrame als Series aus. Wir können die Series dann nach ihrem Index mit der Methode sort_index()
sortieren.
Fazit
In diesem Tutorial haben wir gelernt, wie man die Methode sort_index()
verwendet, um ein Pandas DataFrame oder eine Series nach ihrem Index zu sortieren. Dies ist eine leistungsstarke Methode, die uns dabei helfen kann, große Datensätze mühelos zu bereinigen und zu manipulieren. Wir hoffen, dass Ihnen dieses Tutorial hilfreich und informativ war.