Como Usar a Função Mean do Pandas
Published on
O Pandas, uma biblioteca crítica em Python, equipa cientistas de dados com ferramentas potentes para manipular dados. Uma dessas ferramentas, frequentemente usada, é a função Mean do Pandas. Por definição, a função Mean calcula a média dos números em um determinado conjunto de dados, mas suas aplicações em análise de dados são muito mais profundas.
Quer criar visualizações de dados rapidamente em Python?
PyGWalker é um projeto de código aberto em Python que pode ajudar a acelerar o fluxo de análise e visualização de dados diretamente em ambientes baseados no Jupyter Notebook.
PyGWalker (opens in a new tab) transforma seu Dataframe Pandas (ou Polars Dataframe) em uma interface visual em que você pode arrastar e soltar variáveis para criar gráficos com facilidade. Basta usar o código abaixo:
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Você pode executar o PyGWalker agora com esses notebooks on-line:
E não se esqueça de dar uma ⭐️ no GitHub!
Entendendo a Função Mean do Pandas
A função Mean do pandas pode ser aplicada tanto em um DataFrame quanto em uma Serie. Quando aplicada a um DataFrame, retorna uma série com a média ao longo de um eixo especificado, e quando usada em uma Series, produz um valor escalar, essencialmente um único número.
Sintaxe Básica:
pandas.DataFrame.mean()
pandas.Series.mean()
Compreender a média, a mediana e a moda é essencial em qualquer área de dados. A escolha do eixo (linhas ou colunas) para o cálculo da média destaca sua flexibilidade.
Parâmetros Vitais da Função Mean do Pandas
Para que a função mean seja usada corretamente, é essencial entender seus parâmetros:
-
axis
: O parâmetro de eixo é uma escolha entre linhas (axis='columns' ou 1) e colunas (axis='index' ou 0) para calcular a média. -
skipna
(o padrão é True): Este parâmetro decide se inclui ou exclui valores NA / nulos ao calcular o resultado. Se definido como False e um NA estiver presente nos dados, a função de média retornará "NaN". -
level
: Isso é usado ao lidar com um DataFrame de vários índices. Você pode passar o nome (ou int) do nível para o cálculo da média. -
numeric_only
: Este parâmetro é útil quando o seu DataFrame contém tipos de dados mistos. Geralmente é aconselhável deixá-lo como padrão para começar.
Mergulhando em exemplos
Vamos dar uma olhada em como a função Mean do Pandas opera por meio de alguns exemplos.
Uso básico:
import pandas as pd
# Criando um dataframe simples
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
})
print(df.mean())
No exemplo acima, estamos calculando a média de cada coluna. A saída será uma série com a média das colunas A, B e C.
Usando o parâmetro de eixo:
print(df.mean(axis='columns'))
Aqui, calculamos a média ao longo das linhas. A saída será uma série com a média de cada linha.
Usando o parâmetro skipna:
df = pd.DataFrame({
'A': [1, 2, 3, None],
'B': [4, None, 6, 7],
'C': [7, 8, None, 9]
})
print(df.mean(skipna=False))
Neste exemplo, estamos incluindo valores NA em nosso cálculo, definindo skipna como False. Como temos valores NA em nossos dados, a função média retornará "NaN" para a média.
Conclusão
Em conclusão, a função Mean do Pandas é uma ferramenta poderosa para análise de dados. Permite flexibilidade na escolha do eixo para o cálculo e tratamento de valores nulos. Ao entender seus parâmetros e seu uso, pode-se liberar todo o seu potencial. Pratique através de exemplos e consistência.