Wie man DuckDB und Pandas für Datenanalyse verwendet

Wenn es um Datenanalyse geht, können die von Ihnen verwendeten Tools einen großen Unterschied machen. Genau hier kommen DuckDB und Pandas ins Spiel. Diese beiden haben die Datenanalysewelt für sich erobert, und das aus gutem Grund. Dieser Artikel dreht sich darum, Sie mit diesen Tools, ihren Stärken, Unterschieden und wie sie zusammenarbeiten können, vertraut zu machen, um Ihre Datenanalyseaufgaben zu beschleunigen.

Was ist DuckDB?

Beginnen wir mit DuckDB. DuckDB ist eine in-Memory-analytische Datenbank, die in C++ geschrieben ist. Sie wurde entwickelt, um analytische SQL-Abfragen und datenintensive Aufgaben zu unterstützen. Aber das Entscheidende ist: DuckDB ist schnell. Ich meine, wirklich schnell. Es wurde als eine schnelle, in-Memory-Datenbank entwickelt, was es zur ersten Wahl für Aufgaben macht, die schnell erledigt werden müssen.

Aber es geht nicht nur um Geschwindigkeit. DuckDB ist auch effizient. Es ist darauf ausgelegt, komplexe Abfragen auf großen Datensätzen auszuführen, was ein großer Vorteil ist, wenn Sie es mit einer großen Menge an Daten zu tun haben. Und das Beste daran? Es integriert sich nahtlos mit Pandas DataFrames, sodass Sie diese Abfragen direkt auf ihnen ausführen können. Sie müssen die Daten nicht hin und her bewegen. Wie cool ist das?

Was sind Pandas?

Nun, lassen Sie uns über Pandas sprechen. Wenn Sie sich mit Datenanalyse beschäftigen, sind Sie wahrscheinlich schon einmal auf Pandas gestoßen. Es ist eine flexible Datenanalyse-Bibliothek in Python, die von vielen aufgrund ihrer Einfachheit und Leistung geliebt wird. Es kann eine Vielzahl von Datenformaten und -größen verarbeiten und ist größtenteils intuitiv zu bedienen.

Aber das Interessante ist Folgendes: Wenn Sie mit SQL vertraut sind, wissen Sie, wie leistungsstark es sein kann, wenn es darum geht, komplexe Datentransformationen zu handhaben. Und genau hier kommt DuckDB ins Spiel. Durch die Kombination von Geschwindigkeit und Effizienz von DuckDB mit der Flexibilität von Pandas erhalten Sie ein leistungsstarkes Werkzeug für Datenanalyse, das schwer zu übertreffen ist.

Möchten Sie Datenvisualisierungen aus Python Pandas Dataframe schnell erstellen, ohne Programmiercode?

PyGWalker ist eine Python-Bibliothek für explorative Datenanalyse mit Visualisierung. PyGWalker (opens in a new tab) kann Ihren Workflow für Datenanalyse und Datenvisualisierung mit Jupyter Notebook vereinfachen, indem es Ihren Pandas DataFrame (und Polars DataFrame) in eine Tableau-ähnliche Benutzeroberfläche für visuelle Exploration verwandelt.

(opens in a new tab)

Vergleich von DuckDB und Pandas

Okay, wir haben jetzt getrennt über DuckDB und Pandas gesprochen. Aber wie schneiden sie im Vergleich zueinander ab? Finden wir es heraus.

DuckDB vs Pandas

Wenn es um Leistung geht, hat DuckDB eindeutig die Nase vorn. Es ist schneller und verwendet weniger Speicher, was ein großer Vorteil ist, wenn Sie es mit großen Datensätzen zu tun haben. Aber das ist noch nicht alles. DuckDB glänzt auch in Bezug auf SQL-Fähigkeiten. Es ermöglicht es Ihnen, SQL-Abfragen auf Pandas DataFrames auszuführen, was ein echter Game Changer sein kann, wenn Sie mit SQL vertrauter sind als mit Python.

Auf der anderen Seite ist Pandas keineswegs schwach. Es ist unglaublich flexibel und leistungsstark und kann eine Vielzahl von Datenformaten und -größen verarbeiten. Außerdem ist es ziemlich intuitiv zu bedienen, was immer ein Pluspunkt ist.

Aber hier ist der Clou: Sie müssen sich nicht zwischen DuckDB und Pandas entscheiden. Tatsächlich funktionieren sie am besten, wenn sie zusammen verwendet werden. Durch die Kombination von Geschwindigkeit und Effizienz von DuckDB mit der Flexibilität von Pandas erhalten Sie ein leistungsstarkes Werkzeug für Datenanalyse, das schwer zu übertreffen ist.

Aber glauben Sie mir nicht einfach so. Schauen wir uns einige Beispiele an.

Erste Schritte mit DuckDB und Pandas

Bevor wir uns mit den Beispielen beschäftigen, wollen wir darüber sprechen, wie Sie mit DuckDB und Pandas starten können. Keine Sorge, es ist ziemlich einfach.

Installationsanleitung

Das Wichtigste zuerst: Sie müssen DuckDB und Pandas installieren. Wenn Sie Python verwenden, können Sie dies mit pip, dem Python-Paketinstaller, tun. Hier ist, wie es geht:

pip install duckdb pandas

Das ist es! Sie haben jetzt DuckDB und Pandas installiert und können loslegen.

Einrichten von DuckDB mit Pandas

Sobald Sie DuckDB und Pandas installiert haben, können Sie sie zusammen verwenden. Der erste Schritt besteht darin, die Bibliotheken in Ihrem Python-Skript oder Jupyter-Notebook zu importieren. So können Sie es tun:

import duckdb
import pandas as pd

Mit diesen Codezeilen geben Sie Python an, dass Sie die DuckDB- und Pandas-Bibliotheken in Ihrem Skript oder Notebook verwenden möchten.

Verwendung von DuckDB zur Abfrage von Pandas DataFrames

Jetzt, da Sie DuckDB und Pandas eingerichtet haben, lassen Sie uns darüber sprechen, wie Sie DuckDB verwenden können, um Pandas DataFrames abzufragen. Hier passiert die Magie.

Grundlegende SQL-Abfragen auf DataFrames

Mit DuckDB können Sie SQL-Abfragen direkt auf Pandas DataFrames ausführen. Das bedeutet, Sie können die Leistung und die Vertrautheit von SQL nutzen, um Ihre Daten zu manipulieren und zu analysieren. Hier ist ein Beispiel:

# Erstellen Sie ein Pandas DataFrame
df = pd.DataFrame({
   'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
   'C': np.random.randn(8),
   'D': np.random.randn(8)
})
 
# Verwenden Sie DuckDB, um eine SQL-Abfrage auf dem DataFrame auszuführen
result = duckdb.query("SELECT A, AVG(D) FROM df GROUP BY A").to_df()

In diesem Beispiel erstellen wir ein Pandas DataFrame und verwenden dann DuckDB, um eine SQL-Abfrage darauf auszuführen. Die Abfrage berechnet den Durchschnitt der Spalte 'D' für jeden eindeutigen Wert in der Spalte 'A'. Das Ergebnis ist ein weiteres DataFrame mit den Ergebnissen der Abfrage.

Fortgeschrittene SQL-Operationen mit DuckDB

Aber DuckDB ist nicht nur für grundlegende SQL-Abfragen geeignet. Sie können es auch für fortgeschrittenere Operationen wie Joins, Fensterfunktionen und sogar für Maschinenlernalgorithmen verwenden. Hier ist ein Beispiel für eine Join-Operation:

# Erstellen Sie zwei Pandas DataFrames
df1 = pd.DataFrame({
   'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
   'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
   'C': np.random.randn(8),
   'D': np.random.randn(8)
})
 
df2 = pd.DataFrame({
   'A': ['foo', 'bar', 'baz', 'bat'],
   'E': ['apple', 'orange', 'banana', 'grape']
})
 
# Verwenden Sie DuckDB, um eine SQL-Join-Operation auf den DataFrames auszuführen
result = duckdb.query("SELECT df1.A, df1.B, df2.E FROM df1 JOIN df2 ON df1.A = df2.A").to_df()

In diesem Beispiel erstellen wir zwei Pandas DataFrames und verwenden anschließend DuckDB, um eine SQL-Join-Operation auf ihnen auszuführen. Das Ergebnis ist ein neues DataFrame mit den verbundenen Daten.

Möchten Sie schnell Datenauswertungen aus einem Python Pandas DataFrame ohne Code erstellen?

PyGWalker ist eine Python-Bibliothek für explorative Datenanalyse mit Visualisierung. PyGWalker (opens in a new tab) kann Ihren Workflow für Datenanalysen und Datenvisualisierungen in Jupyter Notebooks vereinfachen, indem es Ihr Pandas DataFrame (und Polars DataFrame) in eine Tableau-ähnliche Benutzeroberfläche für visuelle Exploration verwandelt.

(opens in a new tab)

Fazit

Und das ist nur die Spitze des Eisbergs. Mit DuckDB und Pandas können Sie Ihre Datenanalyseaufgaben schneller, effizienter und intuitiver gestalten. Warum also nicht ausprobieren? Sie könnten herausfinden, dass es das dynamische Duo ist, nach dem Sie gesucht haben.

Häufig gestellte Fragen

Ist DuckDB schneller als Pandas?

Ja, DuckDB ist in der Regel schneller als Pandas, wenn es um die Ausführung von SQL-Abfragen auf großen Datensätzen geht. Dies liegt daran, dass DuckDB eine analytische In-Memory-Datenbank ist, die auf Geschwindigkeit und Effizienz ausgelegt ist. Die tatsächliche Leistung kann jedoch von der spezifischen Aufgabe und der Größe des Datensatzes abhängen.

Was ist der Unterschied zwischen DuckDB und Polars?

DuckDB und Polars sind beide Werkzeuge zur Datenanalyse, haben jedoch einige wesentliche Unterschiede. DuckDB ist eine analytische In-Memory-Datenbank, die sich durch die Ausführung von SQL-Abfragen auf großen Datensätzen auszeichnet. Polars hingegen ist eine DataFrame-Bibliothek, die in Rust und Python implementiert ist und auf Geschwindigkeit und Flexibilität ausgelegt ist. Während DuckDB den Schwerpunkt auf SQL-Fähigkeiten legt, bietet Polars eine DataFrame-API, die der von Pandas ähnlich ist.

Ist DuckDB multithreaded?

Ja, DuckDB ist multithreaded. Es verwendet mehrere Threads, um Abfragen auszuführen, was zu erheblichen Leistungssteigerungen auf Mehrkernsystemen führen kann. Dies ist einer der Gründe, warum DuckDB für bestimmte Aufgaben schneller sein kann als andere Datenanalysewerkzeuge.

Ist SQLite schneller als Pandas?

SQLite und Pandas haben unterschiedliche Zwecke, und ihre Leistung kann je nach Aufgabe variieren. SQLite ist eine Datenbank-Engine, die auf Datenverwaltung und -abfrage optimiert ist, während Pandas eine Datenanalysebibliothek ist, die sich auf Datenmanipulation und -transformation spezialisiert hat. Für Aufgaben, die komplexe SQL-Abfragen erfordern, könnte SQLite schneller sein. Für Aufgaben, die komplexe Datenmanipulationen erfordern, könnte Pandas schneller sein. Wenn sie jedoch gemeinsam verwendet werden, können sie ein leistungsstarkes Werkzeug für die Datenanalyse bieten.

How to Use DuckDB and Pandas for Data Analysis Get Started with LangChain Document Loaders: A Step-by-Step Guide