Pandas Where: Die Kraft von Pandas zur Verwaltung von Null-Werten nutzen

Name: Rajiv Chandra

Published on 7.5.2023

Die Arbeit mit Daten ist das Herzstück unserer Tätigkeit. Rohdaten können jedoch oft unübersichtlich, unvollständig und voller Null-Werte sein, die behandelt werden müssen. Ohne ordnungsgemäße Handhabung können Null-Werte beim Durchführen von Datenanalysen oder maschinellen Lernaufgaben Probleme verursachen. Glücklicherweise können wir mit der Pandas-Bibliothek in Python Null-Werte schnell und effektiv verwalten.

In diesem Artikel werden wir die Pandas-Funktion where() und verschiedene andere Techniken zur Behandlung von Null-Werten in Pandas kennenlernen. Wir werden erläutern, wie man fehlende Daten in einem Pandas-Datenrahmen identifiziert und behandelt, Strategien zum Umgang mit Null-Werten, bewährte Verfahren zur Verwaltung fehlender Werte und vieles mehr.

Möchten Sie schnell Datenvisualisierungen in Python erstellen?

PyGWalker ist ein Open-Source-Projekt in Python, das dabei helfen kann, den Workflow der Datenanalyse und -visualisierung direkt in einer Jupyter Notebook-basierten Umgebung zu beschleunigen.

PyGWalker (opens in a new tab) verwandelt Ihren Pandas-Datenrahmen (oder Polars-Datenrahmen) in eine visuelle Benutzeroberfläche, auf der Sie Variablen per Drag-and-Drop ziehen und ablegen können, um Diagramme mit Leichtigkeit zu erstellen. Verwenden Sie einfach den folgenden Code:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Sie können PyGWalker jetzt mit diesen Online-Notebooks ausführen:

Und vergessen Sie nicht, uns eine ⭐️ auf GitHub zu geben!

PyGWalker in Kaggle Notebook ausführen (opens in a new tab)	PyGWalker in Google Colab ausführen (opens in a new tab)	PyGWalker eine ⭐️ auf GitHub geben (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

Identifizierung und Behandlung fehlender Daten in einem Pandas-Datenrahmen

Eine der häufigsten Aufgaben, die wir bei der Arbeit mit Daten ausführen müssen, ist die Überprüfung auf fehlende Daten. Pandas bietet mehrere Möglichkeiten, Null-Werte zu identifizieren, einschließlich isnull() und notnull(), die boolesche Werte zurückgeben, um anzuzeigen, ob einer der Werte im Datenrahmen null ist oder nicht. Mit diesen Funktionen können wir schnell herausfinden, ob es fehlende Werte in unseren Daten gibt.

Nehmen wir zum Beispiel an, wir haben einen Datenrahmen mit mehreren Spalten, von denen einige fehlende Werte enthalten.

import pandas as pd
import numpy as np

data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, np.nan, 30],
        'gender': ['F', 'M', 'M'],
        'income': [50000, 60000, np.nan]}

df = pd.DataFrame(data)

Um fehlende Werte in unserem Datenrahmen zu überprüfen, können wir die Funktion isnull() auf den gesamten Datenrahmen anwenden.

print(df.isnull())

Dies liefert einen Datenrahmen mit der gleichen Form wie der ursprüngliche Datenrahmen, wobei True einen Null-Wert und False einen Nicht-Null-Wert darstellt.

Um die Anzahl der fehlenden Werte in jeder Spalte unseres Datenrahmens zu zählen, können wir nach Anwendung der isnull()-Funktion die Methode sum() verwenden.

print(df.isnull().sum())

Dies liefert ein Series-Objekt, bei dem der Index die Spaltennamen und die Werte die Anzahl der fehlenden Werte in jeder Spalte sind.

Wir können auch Zeilen oder Spalten mit Null-Werten mithilfe der Methode dropna() löschen. Diese Methode entfernt jede Zeile oder Spalte, die mindestens einen Null-Wert enthält.

df.dropna()

Alternativ können wir Null-Werte mit einem bestimmten Wert mit der fillna()-Funktion ersetzen.

df.fillna(0)

Dies sind nur einige Beispiele für die verfügbaren Methoden in Pandas zur Identifizierung und Behandlung von Null-Werten. Eine umfassende Liste finden Sie in der Pandas-Dokumentation.

Arbeit mit Null-Werten in Pandas

Null-Werte können bei der Durchführung von Datenanalysen oder maschinellen Lernaufgaben eine Herausforderung darstellen. Es gibt jedoch viele Strategien, die wir verwenden können, um Null-Werte effektiv zu bearbeiten. Hier sind einige von ihnen:

Interpolation

Eine gängige Technik zum Umgang mit fehlenden Daten ist die Interpolation. Die Interpolation ist eine statistische Technik, die fehlende Werte auf der Grundlage von beobachteten Werten in benachbarten Zeilen schätzt. In Pandas können wir die Methode interpolate() verwenden, um die Interpolation in unserem Datenrahmen durchzuführen.

df.interpolate()

Auffüllen fehlender Werte

Eine andere Strategie zum Umgang mit Null-Werten besteht darin, die fehlenden Werte mit einem konstanten Wert oder einem aus den verbleibenden Daten berechneten Wert aufzufüllen. Wir können die Methode fillna() verwenden, um Null-Werte mit einem bestimmten Wert aufzufüllen.

df.fillna(0)

Alternativ können wir Null-Werte mit dem Durchschnitt, Modalwert oder Median der verbleibenden Daten auffüllen.

df.fillna(df.mean())

Entfernen fehlender Werte

Das Entfernen fehlender Werte ist eine gängige Strategie zur Behandlung von Null-Werten. Mit der Methode dropna() können wir alle Zeilen entfernen, die einen oder mehrere Null-Werte enthalten.

df.dropna()

Wir können auch Spalten löschen, die Null-Werte enthalten.

df.dropna(axis=1)

Imputation

Imputation ist eine Technik, um fehlende Werte basierend auf beobachteten Daten zu schätzen. In Pandas können wir das Paket scikit-learn verwenden, um Imputation durchzuführen.

from sklearn.impute import SimpleImputer
 
imp = SimpleImputer(missing_values=np.nan, strategy='mean')
 
df[['age', 'income']] = imp.fit_transform(df[['age', 'income']])

Dies sind nur einige Beispiele für die vielen verfügbaren Strategien zum Umgang mit Null-Werten in Pandas. Die geeignete Strategie hängt vom spezifischen Problem und der Art der fehlenden Daten ab.

Best Practices für den Umgang mit fehlenden Werten in Pandas

Der Umgang mit fehlenden Daten kann eine Herausforderung sein, aber es gibt einige bewährte Methoden, die helfen können. Hier sind ein paar Tipps zum Umgang mit Null-Werten in Pandas:

Überprüfen Sie immer auf fehlende Daten, bevor Sie eine Analyse durchführen.
Verwenden Sie deskriptive Statistiken, um die Verteilung der Daten zu verstehen und Ausreißer zu identifizieren.
Berücksichtigen Sie verschiedene Strategien zur Behandlung fehlender Daten, wie Interpolation, Imputation oder das Löschen von fehlenden Werten.
Seien Sie sich der potenziellen Auswirkungen verschiedener Strategien bewusst und wie sie die Analyse beeinflussen können.
Verwenden Sie Datenvisualisierungstools, um Einblicke in die Natur und Verteilung der Daten zu erhalten.
Dokumentieren Sie die fehlenden Werte und wie sie in der Analyse behandelt wurden.

Indem wir diesen bewährten Methoden folgen, können wir Null-Werte in unseren Daten besser verwalten und effektiv Datenanalyse- oder maschinelles Lernen-Aufgaben durchführen.

Fazit

Null-Werte können eine Herausforderung bei der Arbeit mit Daten sein, aber mit Pandas haben wir Zugriff auf ein leistungsfähiges Set von Tools zur Identifizierung und Behandlung von fehlenden Daten. In diesem Artikel haben wir die Pandas where() Funktion und verschiedene andere Techniken und Strategien zum Umgang mit Null-Werten in Pandas erkundet. Durch die Anwendung dieser Techniken und das Befolgen bewährter Methoden können wir Null-Werte in unseren Daten besser verwalten und effektive Datenanalyse- und maschinelles Lernen-Aufgaben durchführen.

Pandas Where: Die Kraft von Pandas zur Verwaltung von Null-Werten nutzen Pandas read_csv() Tutorial: Daten wie ein Profi importieren