Skip to content
Anleitungen
Python
Wie man Pandas Dataframe in CSV exportiert

Pandas DataFrame in CSV exportieren: Ein umfassender Leitfaden

Als Datenanalyst oder Wissenschaftler arbeiten Sie möglicherweise mit massiven Datensätzen, die eine ordnungsgemäße Organisation, Manipulation und Analyse erfordern. In Python bietet die Pandas-Bibliothek leistungsstarke Werkzeuge zur Datenbereinigung und -manipulation, insbesondere mit DataFrames. Sobald Sie Ihre Daten gereinigt und strukturiert haben, um in ein DataFrame zu passen, ist der nächste Schritt, es in einem geeigneten Format für die Speicherung und Freigabe zu speichern.

Ein beliebtes Dateiformat für tabellarische Daten ist CSV oder kommagetrennte Werte. In diesem umfassenden Leitfaden führen wir Sie durch den Prozess des Exports von Pandas DataFrames in CSV-Dateien. Egal, ob Sie neu in dieser Aufgabe sind oder Ihre Fähigkeiten verbessern möchten, wir haben alles, was Sie wissen müssen.

Möchten Sie eine Datenvisualisierung aus einem Python Pandas DataFrame schnell und ohne Code erstellen?

PyGWalker ist eine Python-Bibliothek für explorative Datenanalyse mit Visualisierung. Mit PyGWalker (opens in a new tab) können Sie Ihren Jupyter-Notebook-Datenanalyse- und Datenvisualisierungsworkflow vereinfachen, indem Sie Ihr Pandas DataFrame (und den Polars DataFrame) in eine Tableau-ähnliche Benutzeroberfläche für visuelle Exploration umwandeln.

PyGWalker für Datenvisualisierung (opens in a new tab)

Warum Pandas DataFrame in CSV exportieren?

Der Export Ihrer DataFrames in CSV-Dateien bietet zahlreiche Vorteile, darunter:

  • Effiziente Speicherung: CSV-Dateien benötigen im Vergleich zu anderen Formaten wie Excel oder JSON minimalen Speicherplatz.
  • Benutzerfreundlichkeit: CSV-Dateien lassen sich einfach mit verschiedenen Softwareanwendungen, einschließlich Tabellenkalkulationen und Texteditoren, erstellen und lesen.
  • Flexibilität: Sie können CSV-Dateien mit verschiedenen Datenbanken und Programmiersprachen in Ihren Datenworkflow integrieren.
  • Standardisierung: CSV-Dateien bieten ein standardisiertes Format zum Teilen und Austauschen von Daten zwischen Benutzern oder Organisationen.

Diese Vorteile machen CSV zu einer beliebten Wahl für die Datenverwaltung und -freigabe. Unser Leitfaden hilft Ihnen dabei, den Prozess des Exports von Pandas DataFrames in CSV-Dateien mithilfe der integrierten Methode .to_csv() der Bibliothek zu beherrschen.

DataFrame in CSV mit Pandas exportieren

Die Methode .to_csv() ist eine der häufigsten Methoden der Pandas-Bibliothek zum Exportieren von DataFrames in CSV-Dateien. Diese Methode verfügt über mehrere Parameter, mit denen Sie den Exportprozess anpassen können.

import pandas as pd 
 
# Erstellen Sie ein Beispiel-DataFrame
df = pd.DataFrame({"Name": ["John", "Jane", "Peter"], "Alter": [25, 30, 28], "Gehalt": [60000, 80000, 75000]})
 
# DataFrame in CSV exportieren
df.to_csv('beispiel.csv', index=False)

In diesem Beispiel haben wir ein einfaches DataFrame mit drei Spalten - Name, Alter und Gehalt - erstellt. Anschließend haben wir die Methode .to_csv() verwendet, um das DataFrame als CSV-Datei mit dem Namen 'beispiel.csv' zu speichern.

Der Parameter index legt fest, ob der DataFrame-Index in der CSV-Datei enthalten sein soll oder nicht. Standardmäßig ist dieser Parameter auf True gesetzt. Wenn Sie ihn auf False setzen, schließt Pandas den DataFrame-Index von der gespeicherten CSV-Datei aus.

Parameter in der Methode .to_csv()

Neben dem index-Parameter verfügt die Methode .to_csv() über weitere Parameter, mit denen Sie den Exportprozess entsprechend Ihren Anforderungen anpassen können:

  • path_or_buf: Ein String, der den Dateipfad oder den Puffer angibt, in dem das DataFrame gespeichert werden soll. Dieser Parameter ist erforderlich.
  • sep: Ein String, der den in der CSV-Datei verwendeten Trennzeichen angibt. Standardmäßig ist dieser Parameter auf ein Komma (',') eingestellt. Sie können andere Trennzeichen wie ein Semikolon (';'), ein Tabulatorzeichen ('\t') oder andere angeben.
  • header: Ein boolescher Wert oder eine Liste von String(s), um die Kopfzeile(n) in der gespeicherten CSV-Datei anzugeben. Standardmäßig ist dieser Parameter auf True eingestellt, und die Kopfzeile enthält die Spaltennamen des DataFrames. Wenn Sie diesen Parameter auf False setzen, enthält die exportierte CSV-Datei keine Überschriften.
  • index: Ein boolescher Wert, der angibt, ob der DataFrame-Index in der CSV-Datei enthalten sein soll oder nicht. Standardmäßig ist dieser Parameter auf True eingestellt.
  • mode: Ein String, der den Schreibmodus der Datei angibt. Standardmäßig setzt Pandas diesen Parameter auf 'w' für den Schreibmodus, der vorhandene Dateien überschreibt. Sie können dies auf 'a' ändern, um den Anfügemodus zu aktivieren, der den Inhalt des DataFrames an eine vorhandene CSV-Datei anhängt.
  • decimal: Ein String, der das Zeichen angibt, das als Dezimaltrennzeichen in der CSV-Datei verwendet wird. Standardmäßig ist dieser Parameter auf '.' eingestellt.
  • date_format: Ein String, der das Format für Datum-Zeit-Objekte im DataFrame angibt, die als Zeichenketten in der CSV-Datei gespeichert werden sollen. Standardmäßig ist dieser Parameter auf None eingestellt.
  • quotechar: Ein String, der das Zeichen angibt, das verwendet wird, um Felder in Anführungszeichen zu setzen, die Sonderzeichen wie Kommas, Anführungszeichen oder Zeilenumbrüche enthalten. Standardmäßig ist dieser Parameter auf '"' eingestellt.

Alternative Methoden zum Exportieren von DataFrames

Obwohl das Exportieren von Pandas DataFrames in CSV-Dateien mit der Methode .to_csv() eine häufige und effiziente Methode zum Speichern Ihrer Daten ist, gibt es auch andere Möglichkeiten. Einige davon sind:

Exportieren nach Excel

Sie können die Klasse pd.ExcelWriter() verwenden, um eine Excel-Datei zu erstellen und ein DataFrame mit der Methode .to_excel() darin zu exportieren. Der Vorteil dieser Methode besteht darin, dass Sie mehrere Arbeitsblätter in einer einzigen Excel-Datei erstellen können.

# Excel-Datei und Writer-Objekt erstellen
writer = pd.ExcelWriter('beispiel.xlsx')
 
# In Excel exportieren
df.to_excel(writer, sheet_name='Blatt1', index=False)
 
# Excel-Datei speichern und Writer-Objekt schließen
writer.save()

Exportieren nach JSON

Sie können ein Pandas DataFrame mithilfe der Methode .to_json() in eine JSON-Datei speichern. Diese Methode erstellt eine Zeichenkettenrepräsentation des DataFrames im JSON-Format.

# DataFrame als JSON exportieren
df.to_json('sample.json')

Exportieren nach HDF5

HDF5 (Hierarchical Data Format) ist ein leistungsstarkes Dateiformat, das häufig zum Speichern großer Datensätze verwendet wird. Pandas bietet die Klasse HDFStore zum Speichern von DataFrames in HDF5 an.

# HDF5-Datei erstellen und DataFrame speichern
store = pd.HDFStore('sample.h5')
store['df'] = df
 
# HDF5-Datei schließen
store.close()

Exportieren in eine SQL-Datenbank

Pandas ermöglicht es auch, ein DataFrame direkt in eine SQL-Datenbank zu exportieren, indem die Methode .to_sql() verwendet wird. Sie müssen ein SQLAlchemy-Engine-Objekt erstellen, das mit der Datenbank kommuniziert.

from sqlalchemy import create_engine
 
# Datenbank-Engine-Objekt erstellen
engine = create_engine('sqlite:///sample.db', echo=False)
 
# In SQL-Datenbank exportieren
df.to_sql('sample', con=engine, if_exists='replace', index=False)

Pickling

Schließlich können Sie Ihr Pandas DataFrame als gepickeltes Objekt speichern, das eine serialisierte Darstellung des DataFrames im binären Format ist.

# DataFrame als gepickeltes Objekt exportieren
df.to_pickle('sample.pkl')

Fazit

Zusammenfassend ist das Exportieren von Pandas DataFrames in CSV-Dateien eine wichtige Aufgabe, um tabellarische Daten zu speichern und mit anderen zu teilen. Die Methode .to_csv() in der Pandas-Bibliothek ermöglicht es Ihnen, DataFrames im CSV-Format mit flexiblen Optionen wie der Auswahl von Trennzeichen, dem Hinzufügen von Zeitstempeln und der Behandlung von Codierungsfehlern zu speichern.

Vergessen Sie nicht, unsere weiteren Python-Tutorials zu überprüfen, um Ihre Fähigkeiten zu verbessern!