Cómo usar la función Mean de Pandas
Published on
Pandas, una biblioteca esencial en Python, provee a los científicos de datos con herramientas potentes para manipular datos. Una de esas herramientas, frecuentemente utilizada, es la función Mean de Pandas. Por definición, la función Mean calcula el promedio de los números en un conjunto de datos dado, pero su aplicación en el análisis de datos va mucho más allá.
¿Quieres crear rápidamente visualizaciones de datos en Python?
PyGWalker es un proyecto de Python de código abierto que puede ayudar a acelerar el flujo de trabajo de análisis y visualización de datos directamente dentro de entornos basados en Jupyter Notebook.
PyGWalker (opens in a new tab) convierte tu DataFrame de Pandas (o DataFrame de Polars) en una interfaz de usuario visual donde puedes arrastrar y soltar variables para crear gráficos fácilmente. Simplemente usa el siguiente código:
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Puedes utilizar PyGWalker ahora mismo con estas libretas en línea:
¡Y no olvides darle ⭐️ en GitHub!
Entendiendo la función Mean de Pandas
La función Mean de Pandas se puede aplicar tanto a un DataFrame como a una Serie. Cuando se aplica a un DataFrame, devuelve una serie con el promedio a lo largo de un eje especificado, y cuando se utiliza en una Serie, produce un valor escalar, es decir, un solo número.
Sintaxis básica:
pandas.DataFrame.mean()
pandas.Series.mean()
Comprender el promedio, la mediana y la moda es esencial en cualquier campo de datos. La elección del eje (filas o columnas) para el cálculo del promedio subraya su flexibilidad.
Parámetros clave de la función Mean de Pandas
Para utilizar correctamente la función mean, es esencial entender sus parámetros:
-
axis
: El parámetro axis es una opción entre filas (axis='columns' o 1) y columnas (axis='index' o 0) para el cálculo del promedio. -
skipna
(el valor predeterminado es True): Este parámetro decide si incluir o excluir valores NA/nulos al calcular el resultado. Si se establece en False y hay un NA presente en los datos, la función mean devolverá "NaN". -
level
: Esto se utiliza cuando se trabaja con un DataFrame de índice múltiple. Puedes pasar el nombre (o int) del nivel para el cálculo del promedio. -
numeric_only
: Este parámetro es útil cuando tu DataFrame contiene tipos de datos mixtos. Generalmente se recomienda dejarlo por defecto para empezar.
Ejemplos
Veamos cómo funciona la función Mean de Pandas a través de algunos ejemplos.
Uso básico:
import pandas as pd
# Crear un DataFrame simple
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
})
print(df.mean())
En el ejemplo anterior, estamos calculando el promedio de cada columna. La salida será una serie con el promedio de las columnas A, B y C.
Usando el parámetro axis:
print(df.mean(axis='columns'))
Aquí, calculamos el promedio a lo largo de las filas. La salida será una serie con el promedio de cada fila.
Usando el parámetro skipna:
df = pd.DataFrame({
'A': [1, 2, 3, None],
'B': [4, None, 6, 7],
'C': [7, 8, None, 9]
})
print(df.mean(skipna=False))
En este ejemplo, estamos incluyendo valores NA en nuestro cálculo al establecer skipna en False. Debido a que tenemos valores NA en nuestros datos, la función mean devolverá "NaN" para el promedio.
Conclusión
En conclusión, la función Mean de Pandas es una herramienta poderosa para el análisis de datos. Permite flexibilidad al elegir el eje para el cálculo y manejar valores nulos. Al comprender sus parámetros y su uso, se puede aprovechar todo su potencial. Practica a través de ejemplos y de manera consistente.