Comment créer un DataFrame vide dans Pandas
Published on
En tant que data scientist, travailler avec des ensembles de données est une affaire quotidienne. L'ensemble de données peut être sous la forme d'un fichier CSV (valeurs séparées par des virgules), d'un fichier JSON (notation d'objet JavaScript), d'une base de données SQL (langage de requête structuré) ou d'une API externe (interface de programmation d'application). Une fois que nous avons l'ensemble de données, nous devons y travailler pour extraire des modèles et des informations. Pour ce faire, nous utilisons divers outils et bibliothèques, dont l'une est Pandas.
Pandas est une bibliothèque Python largement utilisée pour la manipulation et l'analyse de données. Il offre une interface facile à utiliser pour le nettoyage, la transformation et la visualisation des données. DataFrame, Series et Index sont les principaux composants de Pandas. Dans cet article, nous nous concentrerons sur DataFrame et apprendrons comment créer un DataFrame vide dans Pandas.
Voulez-vous créer rapidement des visualisations de données en Python?
PyGWalker est un projet Open Source Python qui peut vous aider à accélérer le flux de travail d'analyse et de visualisation des données directement dans des environnements basés sur Jupyter Notebook.
PyGWalker (opens in a new tab) transforme votre DataFrame Pandas (ou votre DataFrame Polars) en une interface utilisateur visuelle où vous pouvez faire glisser et déposer des variables pour créer facilement des graphiques. Utilisez simplement le code suivant :
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Vous pouvez exécuter PyGWalker dès maintenant avec ces notebooks en ligne :
Et n'oubliez pas de nous donner une ⭐️ sur GitHub !
Qu'est-ce qu'un DataFrame ?
Un DataFrame est une structure de données étiquetée bidimensionnelle avec des colonnes de types potentiellement différents. Il est similaire à une feuille de calcul ou à une table SQL, où les données sont organisées dans un format tabulaire. Il est composé de lignes et de colonnes, où chaque ligne représente un enregistrement et chaque colonne représente une fonctionnalité ou un attribut de cet enregistrement. Un DataFrame est une structure de données polyvalente qui peut contenir différents types de données, y compris des entiers, des flottants, des chaînes de caractères et même d'autres structures de données Pandas. Vous pouvez effectuer des opérations sur un DataFrame, telles que le filtrage, la découpe, les jointures et l'agrégation.
Pourquoi avons-nous besoin d'un DataFrame vide ?
Un DataFrame vide est un DataFrame sans lignes ni colonnes. Il est parfois utile de créer un DataFrame vide et de le remplir ultérieurement avec des données ou d'ajouter des données. Par exemple, si nous voulons stocker des données sur différents produits dans un DataFrame, nous pouvons créer un DataFrame vide avec des colonnes telles que ProductID, ProductName, ProductDescription, Price, etc., puis le remplir avec des données provenant de différentes sources.
Comment créer un DataFrame vide ?
Il existe différentes façons de créer un DataFrame vide dans Pandas. Ici, nous couvrirons trois méthodes :
Méthode 1 : Utilisation du constructeur DataFrame()
La façon la plus simple de créer un DataFrame vide est d'utiliser le constructeur DataFrame(). Ce constructeur renvoie un DataFrame vide sans colonnes ni lignes. Voici un exemple :
import pandas as pd
df = pd.DataFrame()
print(df)
Sortie :
Empty DataFrame
Columns: []
Index: []
Nous pouvons voir que le DataFrame df n'a pas de colonnes ni de lignes. Pour ajouter des colonnes, nous pouvons simplement assigner une liste de noms de colonnes à df.columns. Par exemple :
df.columns = ['ProductID', 'ProductName', 'ProductDescription', 'Price']
print(df)
Sortie :
Empty DataFrame
Columns: [ProductID, ProductName, ProductDescription, Price]
Index: []
Maintenant, nous avons créé un DataFrame vide avec quatre colonnes.
Méthode 2 : Utilisation du constructeur dict()
La deuxième méthode pour créer un DataFrame vide est d'utiliser le constructeur dict(). Cette méthode crée un dictionnaire vide, puis le convertit en DataFrame. Voici un exemple :
import pandas as pd
data = dict(ProductID=[], ProductName=[], ProductDescription=[], Price=[])
df = pd.DataFrame(data)
print(df)
Sortie :
Empty DataFrame
Columns: [ProductID, ProductName, ProductDescription, Price]
Index: []
Comme dans la méthode précédente, nous pouvons ajouter des colonnes en assignant une liste de noms de colonnes à df.columns.
Méthode 3 : Utilisation de la méthode from_dict()
La troisième méthode pour créer un DataFrame vide est d'utiliser la méthode from_dict(). Cette méthode crée un DataFrame à partir d'un dictionnaire de listes vides. Voici un exemple :
import pandas as pd
data = {'ProductID': [], 'ProductName': [], 'ProductDescription': [], 'Price': []}
df = pd.DataFrame.from_dict(data)
print(df)
Sortie :
Empty DataFrame
Columns: [ProductID, ProductName, ProductDescription, Price]
Index: []
Fichier markdown sans traduction du code incorporé :
Colonnes : [ProductID, ProductName, ProductDescription, Price] Index : []
Encore une fois, nous pouvons ajouter des colonnes en attribuant une liste de noms de colonnes à df.columns.
Comment vérifier si un DataFrame est vide ?
Parfois, nous voulons vérifier si un DataFrame est vide ou non. Nous pouvons le faire en utilisant l'attribut "empty" d'un DataFrame. Cet attribut renvoie True si le DataFrame est vide ; sinon, il renvoie False. Voici un exemple :
import pandas as pd
data = {'ProductID': [1, 2, 3], 'ProductName': ['A', 'B', 'C'], 'ProductDescription': ['Desc1', 'Desc2', 'Desc3'], 'Price': [10.0, 20.0, 30.0]}
df = pd.DataFrame(data)
print(df.empty) # False
empty_df = pd.DataFrame()
print(empty_df.empty) # True
Sortie :
False
True
Dans cet exemple, nous créons d'abord un DataFrame "df" avec des données. Nous utilisons ensuite l'attribut "empty" pour vérifier s'il est vide ou non. Comme "df" a des données, "df.empty" renvoie False.
Nous créons ensuite un DataFrame vide "empty_df" en utilisant la première méthode, et encore une fois, nous vérifions s'il est vide en utilisant l'attribut "empty", qui renvoie True.
Conclusion
La création d'un DataFrame vide est une opération courante en analyse de données. Dans cet article, nous avons appris comment créer un DataFrame vide en utilisant différentes méthodes dans Pandas. Nous avons aussi appris comment vérifier si un DataFrame est vide ou non. Maintenant, vous pouvez commencer à expérimenter avec les DataFrames de Pandas et améliorer vos compétences en analyse de données.