Utilisation de la fonction moyenne de Pandas
Published on
Pandas, une bibliothèque essentielle en Python, offre aux data scientists des outils puissants pour manipuler les données. Un de ces outils, souvent utilisé, est la fonction moyenne de Pandas. Par définition, la fonction moyenne calcule la moyenne des nombres d'un ensemble de données donné, mais ses applications dans l'analyse de données vont bien au-delà.
Vous souhaitez créer rapidement des visualisations de données en Python ?
PyGWalker est un projet Python open source qui peut vous aider à accélérer le flux de travail d'analyse et de visualisation des données directement dans des environnements basés sur des blocs-notes Jupyter.
PyGWalker (opens in a new tab) transforme votre DataFrame Pandas (ou DataFrame Polars) en une interface utilisateur visuelle où vous pouvez faire glisser et déposer des variables pour créer facilement des graphiques. Il vous suffit d'utiliser le code suivant :
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Vous pouvez exécuter PyGWalker dès maintenant avec ces blocs-notes en ligne :
Et n'oubliez pas de nous donner une ⭐️ sur GitHub !
Comprendre la fonction moyenne de Pandas
La fonction moyenne de Pandas peut être appliquée à la fois sur un DataFrame et sur une Series. Lorsqu'elle est appliquée à un DataFrame, elle renvoie une série avec la moyenne le long d'un axe spécifié, et lorsqu'elle est utilisée sur une Series, elle produit une valeur scalaire, essentiellement un seul nombre.
Syntaxe de base :
pandas.DataFrame.mean()
pandas.Series.mean()
Comprendre la moyenne, la médiane et le mode est essentiel dans n'importe quel domaine de données. Le choix de l'axe (lignes ou colonnes) pour le calcul de la moyenne souligne sa flexibilité.
Paramètres essentiels de la fonction moyenne de Pandas
Pour utiliser correctement la fonction moyenne, il est essentiel de comprendre ses paramètres :
-
axis
: Le paramètre axis offre le choix entre les lignes (axis='columns' ou 1) et les colonnes (axis='index' ou 0) pour le calcul de la moyenne. -
skipna
(par défaut, True) : Ce paramètre décide d'inclure ou d'exclure les valeurs NA/null lors du calcul du résultat. S'il est réglé sur False et qu'un NA est présent dans les données, la fonction moyenne renverra "NaN". -
level
: Ceci est utilisé lorsqu'il s'agit d'un DataFrame multi-index. Vous pouvez passer le nom (ou l'entier) du niveau pour le calcul de la moyenne. -
numeric_only
: Ce paramètre est utile lorsque votre DataFrame contient des types de données mixtes. Il est généralement conseillé de laisser cela par défaut pour commencer.
Plonger dans les exemples
Jetons un coup d'œil à la façon dont la fonction moyenne de Pandas fonctionne à travers quelques exemples.
Utilisation de base :
import pandas as pd
# Création d'un simple dataframe
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
})
print(df.mean())
Dans l'exemple ci-dessus, nous calculons la moyenne de chaque colonne. Le résultat sera une série avec la moyenne des colonnes A, B et C.
Utilisation du paramètre axis :
print(df.mean(axis='columns'))
Ici, nous calculons la moyenne le long des lignes. Le résultat sera une série avec la moyenne de chaque ligne.
Utilisation du paramètre skipna :
df = pd.DataFrame({
'A': [1, 2, 3, None],
'B': [4, None, 6, 7],
'C': [7, 8, None, 9]
})
print(df.mean(skipna=False))
Dans cet exemple, nous incluons les valeurs NA dans notre calcul en définissant skipna sur False. Comme nous avons des valeurs NA dans nos données, la fonction moyenne renverra "NaN" pour la moyenne.
Conclusion
En conclusion, la fonction moyenne de Pandas est un outil puissant pour l'analyse de données. Elle offre la flexibilité de choisir l'axe de calcul et de gérer les valeurs nulles. En comprenant ses paramètres et leur utilisation, on peut exploiter pleinement son potentiel. Entraînez-vous à travers des exemples et une pratique régulière.