Pandas read_csv() Tutorial: Daten wie ein Profi importieren
Published on
Wenn Sie Daten in Ihrem Data Science-Projekt importieren möchten, ist die read_csv() Funktion von Pandas ein guter Ausgangspunkt. Sie ermöglicht das Einlesen von CSV-Dateien in den Arbeitsspeicher und bietet leistungsstarke Tools für Datenanalyse und -manipulation. In diesem Tutorial werden wir alles behandeln, was Sie wissen müssen, um Daten wie ein Profi zu importieren.
Möchten Sie schnell Datenvisualisierungen in Python erstellen?
PyGWalker ist ein Open Source Python-Projekt, das Ihnen dabei helfen kann, den Workflow für Datenanalyse und -visualisierung direkt in einer Jupyter Notebook-Umgebung zu beschleunigen.
PyGWalker (opens in a new tab) verwandelt Ihr Pandas-Datenframe (oder Ihr Polars-Datenframe) in eine visuelle Benutzeroberfläche, in der Sie Variablen per Drag-and-Drop ziehen und ablegen können, um Diagramme mühelos zu erstellen. Verwenden Sie einfach den folgenden Code:
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Sie können PyGWalker jetzt mit diesen Online-Notebooks ausführen:
Und vergessen Sie nicht, uns auf GitHub ein ⭐️ zu geben!
Was ist Pandas?
Pandas ist eine beliebte Open-Source-Bibliothek für Datenmanipulation und -analyse in Python. Sie bietet Datenstrukturen und Funktionen zur Manipulation und Analyse strukturierter Daten wie Tabellen, Tabellen und Zeitreihen. Die wichtigsten Datenstrukturen in Pandas sind die Series und DataFrame, mit denen Sie eindimensionale und zweidimensionale Daten darstellen können.
Was ist die read_csv() Funktion in Pandas?
Die read_csv()
Funktion ist eine praktische Methode zum Lesen von Daten aus einer CSV-Datei und zur Speicherung der Daten in einem Pandas DataFrame. Diese Funktion verfügt über zahlreiche Parameter, die an Ihre Importbedürfnisse angepasst werden können, z. B. die Angabe von Trennzeichen, den Umgang mit fehlenden Werten und das Festlegen der Indexspalte.
Vorteile der Verwendung von Pandas für die Datenanalyse
Pandas bietet mehrere Vorteile für die Datenanalyse, darunter:
- Einfache Datenmanipulation: Mit seinen leistungsfähigen Datenstrukturen ermöglicht Pandas effiziente Datensäuberung, Umgestaltung und Transformation.
- Datenvisualisierung: Pandas integriert sich nahtlos in beliebte Visualisierungsbibliotheken wie Matplotlib, Seaborn und Plotly, was die Erstellung aussagekräftiger Diagramme und Grafiken erleichtert.
- Umgang mit großen Datensätzen: Pandas kann große Datensätze effizient verarbeiten und komplexe Operationen mühelos durchführen.
Lesen von Daten aus einer CSV-Datei mit Pandas
Um eine CSV-Datei mit Pandas zu lesen, müssen Sie zunächst die Pandas-Bibliothek importieren:
import pandas as pd
Verwenden Sie anschließend die Funktion read_csv(), um Ihre CSV-Datei zu lesen:
data = pd.read_csv('your_file.csv')
Diese Anweisung liest die CSV-Datei und speichert die Daten in einem Pandas DataFrame namens data
. Sie können die ersten paar Zeilen des DataFrames mithilfe der Methode head()
anzeigen:
print(data.head())
Wie man eine Spalte als Index in Pandas festlegt
Um eine bestimmte Spalte als Index in Pandas festzulegen, verwenden Sie die Methode set_index()
:
data = data.set_index('spalten_name')
Alternativ können Sie die Indexspalte beim Lesen der CSV-Datei mit dem Parameter index_col
festlegen:
data = pd.read_csv('your_file.csv', index_col='spalten_name')
Auswahl bestimmter Spalten zum Einlesen in den Arbeitsspeicher
Wenn Sie nur bestimmte Spalten aus der CSV-Datei lesen möchten, können Sie den Parameter usecols
der read_csv()
Funktion verwenden:
data = pd.read_csv('your_file.csv', usecols=['spalte1', 'spalte2'])
Diese Anweisung liest nur die angegebenen Spalten und speichert sie im DataFrame.
Weitere Funktionen von Pandas
Pandas bietet verschiedene andere Funktionen zur Datenmanipulation und -analyse, wie zum Beispiel:
- Verknüpfungs-, Umgestaltungs-, Verbindungs- und Konkatenationsoperationen.
- Umgang mit verschiedenen Datenformaten, einschließlich JSON, Excel und SQL-Datenbanken.
- Export von Daten in verschiedene Dateiformate wie CSV, Excel und JSON.
- Datenbereinigungstechniken, einschließlich Umgang mit fehlenden Werten, Umbenennen von Spalten und Filtern von Daten basierend auf Bedingungen.
- Durchführen von statistischen Analysen auf Daten, wie z. B. Berechnung von Mittelwert, Median, Modus, Standardabweichung und Korrelation.
- Zeitreihenanalyse, die nützlich ist für den Umgang und die Analyse von zeitgestempelten Daten.
Verwendung von Pandas für die Datenanalyse
Um Pandas für die Datenanalyse zu verwenden, folgen Sie diesen Schritten:
- Importieren Sie die Pandas-Bibliothek:
import pandas as pd
- Lesen Sie Ihre Daten in ein DataFrame ein: Bitte übersetzen Sie die Markdown-Datei ins Deutsche, ohne den eingebetteten Code zu übersetzen:
Read your data into a DataFrame:
- Erkunden Sie Ihre Daten mithilfe von Methoden wie
head()
,tail()
,describe()
undinfo()
:
print(data.head())
print(data.tail())
print(data.describe())
print(data.info())
- Bereinigen und verarbeiten Sie Ihre Daten bei Bedarf. Dies kann das Umgang mit fehlenden Werten, das Umbenennen von Spalten und das Konvertieren von Datentypen umfassen:
data = data.dropna()
data = data.rename(columns={'old_name': 'new_name'})
data['column'] = data['column'].astype('int')
- Führen Sie Datenanalysen mit Methoden und Funktionen von pandas durch. Sie können verschiedene Statistiken berechnen, Daten basierend auf Bedingungen filtern und Operationen wie Gruppierung und Aggregierung von Daten durchführen:
mean_value = data['column'].mean()
filtered_data = data[data['column'] > 50]
grouped_data = data.groupby('category').sum()
- Visualisieren Sie Ihre Daten mithilfe von Bibliotheken wie Matplotlib, Seaborn oder ggPlot. Diese Bibliotheken integrieren sich nahtlos in pandas und ermöglichen es Ihnen, aussagekräftige Diagramme und Grafiken zu erstellen:
import matplotlib.pyplot as plt
data['column'].plot(kind='bar')
plt.show()
- Exportieren Sie Ihre verarbeiteten Daten in verschiedene Dateiformate wie CSV, Excel oder JSON:
data.to_csv('processed_data.csv', index=False)
Welche verschiedenen Datenformate kann pandas verarbeiten?
Pandas kann eine Vielzahl von Datenformaten verarbeiten, darunter:
- CSV: Komma-getrennte Wertedateien.
- JSON: JavaScript Object Notation-Dateien.
- Excel: Microsoft Excel-Dateien (.xls und .xlsx).
- SQL: Daten aus relationalen Datenbanken wie SQLite, MySQL und PostgreSQL.
- HTML: Daten aus HTML-Tabellen.
- Parquet: Spaltenweise Speicherformat, das in der Hadoop-Umgebung verwendet wird.
- HDF5: Hierarchisches Datenformat zur Speicherung großer Datensätze.
Wie exportieren Sie Daten aus pandas in eine CSV-Datei?
Um Daten aus einem pandas DataFrame in eine CSV-Datei zu exportieren, verwenden Sie die Methode to_csv()
:
data.to_csv('output.csv', index=False)
Dieser Befehl speichert den DataFrame mit dem Namen data
in einer CSV-Datei mit dem Namen output.csv
. Der Parameter index=False
verhindert, dass die Indexspalte in die Ausgabedatei geschrieben wird.
Häufige Datenbereinigungstechniken in pandas
Einige häufige Datenbereinigungstechniken in pandas sind:
- Umgang mit fehlenden Werten: Verwenden Sie Methoden wie
dropna()
,fillna()
undinterpolate()
, um fehlende Werte zu entfernen, zu ersetzen oder zu schätzen. - Umbenennen von Spalten: Verwenden Sie die Methode
rename()
, um Spalten in einem DataFrame umzubenennen. - Konvertieren von Datentypen: Verwenden Sie die Methode
astype()
, um Spalten in die entsprechenden Datentypen zu konvertieren. - Filtern von Daten: Verwenden Sie das Boolesche Indexing, um Zeilen basierend auf bestimmten Bedingungen zu filtern.
- Duplikate entfernen: Verwenden Sie die Methode
drop_duplicates()
, um doppelte Zeilen aus einem DataFrame zu entfernen. - Werte ersetzen: Verwenden Sie die Methode
replace()
, um bestimmte Werte in einem DataFrame zu ersetzen.
Durchführen von Verknüpfungs-, Umformungs-, Verbindungs- und Konkatenationsvorgängen mit pandas
Pandas bietet mehrere Methoden zum Verknüpfen, Umformen, Verbinden und Konkatenieren von DataFrames, die zum Kombinieren und Transformieren von Daten nützlich sind:
- Verknüpfen: Die Funktion
merge()
ermöglicht es Ihnen, zwei DataFrames anhand von gemeinsamen Spalten oder Indizes zu verknüpfen. Sie können den Typ der Verknüpfung angeben, wie z.B. inner, outer, left oder right[^9^]:
merged_data = pd.merge(data1, data2, on='common_column', how='inner')
- Umformen: Die Funktionen
pivot()
undmelt()
sind nützlich zum Umformen von DataFrames. Die Funktionpivot()
wird verwendet, um ein neues DataFrame mit einem hierarchischen Index zu erstellen, während die Funktionmelt()
verwendet wird, um Wide-Format-DataFrames in Long-Format umzuformen[^10^]:
pivoted_data = data.pivot(index='row', columns='column', values='value') melted_data = pd.melt(data, id_vars='identifier', value_vars=['column1', 'column2'])
- Verbinden: Die Methode
join()
wird verwendet, um zwei DataFrames anhand ihrer Indizes zu verbinden. Sie können den Typ der Verknüpfung angeben, ähnlich wie diemerge()
-Funktion:
joined_data = data1.join(data2, how='inner')
- Konkatenation: Die Funktion
concat()
wird verwendet, um mehrere DataFrames entlang einer bestimmten Achse (entweder Zeilen oder Spalten) zu konkatenieren. Sie können angeben, ob die Konkatenation entlang der Zeilen (axis=0) oder der Spalten (axis=1) erfolgen soll[^11^]:
concatenated_data = pd.concat([data1, data2], axis=0)
Diese Operationen sind grundlegend für die Arbeit mit mehreren DataFrames und können kombiniert werden, um komplexe Datenverarbeitungen und Analysen zu erstellen.
Fazit
Zusammenfassend lässt sich sagen, dass pandas eine leistungsstarke Bibliothek für die Datenmanipulation und -analyse in Python ist. Die Funktion read_csv()
ist ein unverzichtbares Werkzeug zum Importieren von Daten aus CSV-Dateien und pandas bietet eine Vielzahl von Funktionen zum Bereinigen, Analysieren und Exportieren von Daten. Durch die Beherrschung dieser Techniken können Sie fortschrittliche Datenanalysen durchführen und aussagekräftige Visualisierungen erstellen, um Ihre datengesteuerten Projekte voranzutreiben.
Weitere Pandas-Tutorials: