Como resumir facilmente dataframes do Pandas
Published on
O Pandas é uma ferramenta poderosa no arsenal do cientista de dados, especialmente quando se trata da tarefa de resumir dataframes. Entender esses métodos não só ajuda a compreender grandes conjuntos de dados, mas também permite fornecer insights de forma mais eficaz. Aqui, vamos explorar as diferentes funções usadas para esse propósito, fornecendo inúmeros exemplos para maior clareza.
Usaremos o conjunto de dados Supermarket Sales do Kaggle para fins de demonstração.
# Importe a biblioteca
import pandas as pd
# Importe o arquivo
ss = pd.read_csv('supermarket_sales.csv')
# Visualize os dados
ss.head()
Quer criar visualizações de dados rapidamente no Python?
PyGWalker é um projeto Python de código aberto que pode ajudar a acelerar a análise e a visualização de dados diretamente em ambientes baseados em notebooks do Jupyter.
PyGWalker (opens in a new tab) transforma seu dataframe do Pandas (ou Polars Dataframe) em uma interface visual na qual você pode arrastar e soltar variáveis para criar gráficos com facilidade. Simplesmente use o seguinte código:
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Você pode executar o PyGWalker agora mesmo com esses notebooks online:
E não se esqueça de dar uma ⭐️ no GitHub!
Resumo conciso com info()
O método info()
fornece um resumo conciso de um dataframe. É especialmente útil durante a limpeza de dados, já que mostra contagens de registros, nomes de colunas, tipos de dados, intervalo de índice e uso de memória.
## Estatísticas Descritivas com describe()
O `describe()` gera estatísticas descritivas que dão uma visão da dispersão e da forma da distribuição de um conjunto de dados, excluindo valores NaN.
```python
ss.describe()
Os resultados padrão são para tipos numéricos, mas o parâmetro include
pode mostrar estatísticas para diferentes tipos de dados no dataframe.
ss.describe(include=['object', 'int'])
Contagem de Valores Únicos com value_counts()
value_counts()
retorna a contagem de valores únicos para uma série especificada, excluindo valores NaN por padrão.
ss['Cidade'].value_counts()
Contagem de Observações Distintas com nunique()
A função nunique()
conta as observações distintas e pode ser usada tanto para um dataframe quanto para uma série.
ss.nunique()
Soma dos Valores com sum()
sum()
retorna a soma dos valores para o eixo solicitado e funciona tanto com dataframes quanto com séries.
ss.sum(numeric_only=True)
Número de Observações Não-NAs/nulas com count()
A função count()
retorna o número de observações não-NAs/nulas. Ela pode ser aplicada tanto a dataframes quanto a séries.
ss.count(numeric_only=True)
Mínimo, Máximo, Média e Mediana
Essas funções (min()
, max()
, mean()
e median()
) retornam, respectivamente, o mínimo, o máximo, a média e a mediana dos valores.
ss.max()
ss.min()
ss.mean()
ss.median()
Aplicar Múltiplas Operações de Agregação com agg()
A função agg()
permite que você aplique mais de uma operação de agregação para o mesmo conjunto de dados ao longo do eixo especificado.
ss.agg(['count', 'min', 'max', 'mean'])
Agrupamento de Dados com groupby()
groupby()
permite que você agrupe dados com os mesmos valores em linhas resumidas aplicando funções de agregação como soma, máximo e mínimo.
ss.groupby('City').sum()
ss.groupby(['City', 'Customer type']).sum()
Para agrupar por um valor específico e também aplicar mais de um tipo de agregação para o mesmo conjunto de dados, você pode usar a função agg()
.
ss.groupby('City').agg({'Total': ['count', 'min', 'max', 'mean'], 'Rating': 'mean'})
Conclusão
Resumir dataframes do Pandas pode parecer complexo à primeira vista, mas com uma compreensão sólida dessas técnicas, você pode desbloquear todo o potencial de seus conjuntos de dados. Ao dominar esses métodos, você pode simplificar seu processo de análise de dados e fornecer insights de maneira clara e concisa.