Tutorial Pandas read_csv(): Importe dados como um profissional
Published on
Se você estiver procurando importar dados em seu projeto de ciência de dados, a função read_csv() do Pandas é um ótimo lugar para começar. Ela permite que você leia arquivos CSV na memória e oferece ferramentas poderosas para análise e manipulação de dados. Neste tutorial, cobriremos tudo o que você precisa saber para importar dados como um profissional.
Quer criar rapidamente visualizações de dados em Python?
PyGWalker é um projeto Python de código aberto que pode ajudar a acelerar o fluxo de trabalho de análise e visualização de dados diretamente em ambientes baseados em Notebook do Jupyter.
PyGWalker (opens in a new tab) transforma seu DataFrame do Pandas (ou DataFrame do Polars) em uma interface visual em que você pode arrastar e soltar variáveis para criar gráficos com facilidade. Basta usar o seguinte código:
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Você pode executar o PyGWalker agora mesmo com esses notebooks online:
E não se esqueça de dar uma ⭐️ no GitHub!
O que é o Pandas?
O Pandas é uma biblioteca Python popular de código aberto para manipulação e análise de dados. Ele fornece estruturas de dados e funções necessárias para manipular e analisar dados estruturados, como planilhas, tabelas e séries temporais. As principais estruturas de dados no Pandas são as Séries e o DataFrame, que permitem representar dados unidimensionais e bidimensionais, respectivamente.
O que é a função read_csv() no pandas?
A função read_csv()
é um método conveniente para ler dados de um arquivo CSV e armazená-los em um DataFrame do Pandas. Esta função possui inúmeros parâmetros que você pode personalizar para atender às suas necessidades de importação de dados, como especificar delimitadores, lidar com valores ausentes e definir a coluna do índice.
Benefícios de usar o pandas para análise de dados
O pandas oferece vários benefícios para a análise de dados, incluindo:
- Manipulação fácil de dados: Com suas poderosas estruturas de dados, o pandas permite a limpeza, remodelação e transformação eficiente de dados.
- Visualização de dados: O pandas se integra a bibliotecas de visualização populares como Matplotlib, Seaborn e Plotly, tornando fácil criar gráficos e gráficos perspicazes.
- Manipulação de grandes conjuntos de dados: O pandas pode processar eficientemente grandes conjuntos de dados e realizar operações complexas com facilidade.
Leitura de dados de um arquivo CSV usando pandas
Para ler um arquivo CSV usando pandas, você precisa primeiro importar a biblioteca pandas:
import pandas as pd
Em seguida, use a função read_csv() para ler seu arquivo CSV:
data = pd.read_csv('seu_arquivo.csv')
Este comando irá ler o arquivo CSV e armazenar os dados em um DataFrame do Pandas chamado data
. Você pode ver as primeiras linhas do DataFrame usando o método head()
:
print(data.head())
Como definir uma coluna como índice no Pandas
Para definir uma coluna específica como índice no pandas, use o método set_index()
:
data = data.set_index('nome_da_coluna')
Alternativamente, você pode definir a coluna do índice ao ler o arquivo CSV usando o parâmetro index_col
:
data = pd.read_csv('seu_arquivo.csv', index_col='nome_da_coluna')
Selecionar colunas específicas para ler na memória
Se você quiser ler apenas colunas específicas do arquivo CSV, pode usar o parâmetro usecols
da função read_csv()
:
data = pd.read_csv('seu_arquivo.csv', usecols=['coluna1', 'coluna2'])
Este comando irá ler apenas as colunas especificadas e armazená-las no DataFrame.
Outras funcionalidades do Pandas
O pandas oferece várias outras funcionalidades para manipulação e análise de dados, como:
- Operações de mesclagem, remodelação, junção e concatenação.
- Lidar com diferentes formatos de dados, incluindo JSON, Excel e bancos de dados SQL.
- Exportação de dados para vários formatos de arquivo, como CSV, Excel e JSON.
- Técnicas de limpeza de dados, incluindo lidar com valores ausentes, renomear colunas e filtrar dados com base em condições.
- Realização de análise estatística em dados, como cálculo de média, mediana, modo, desvio padrão e correlação.
- Análise de séries temporais, que é útil para manipular e analisar dados com carimbo de data e hora.
Como usar o pandas para análise de dados
Para usar o pandas em projetos de análise de dados, é necessário primeiro importá-lo com o comando:
import pandas as pd
```Para análise de dados, siga estas etapas:
1. Importe a biblioteca pandas:
```python copy
import pandas as pd
- Leia seus dados em um DataFrame:
Leia seus dados em um DataFrame:
- Explore seus dados usando métodos como
head()
,tail()
,describe()
einfo()
:
print(data.head())
print(data.tail())
print(data.describe())
print(data.info())
- Limpe e pré-processe seus dados, se necessário. Isso pode envolver a manipulação de valores ausentes, renomeando colunas e convertendo tipos de dados:
data = data.dropna()
data = data.rename(columns={'old_name': 'new_name'})
data['column'] = data['column'].astype('int')
- Realize a análise de dados utilizando métodos e funções do pandas. Você pode calcular várias estatísticas, filtrar dados com base em condições e realizar operações como agrupamento e agregação de dados:
mean_value = data['column'].mean()
filtered_data = data[data['column'] > 50]
grouped_data = data.groupby('category').sum()
- Visualize seus dados usando bibliotecas como Matplotlib, Seaborn ou ggPlot. Essas bibliotecas se integram perfeitamente ao pandas, facilitando a criação de gráficos e gráficos perspicazes:
import matplotlib.pyplot as plt
data['column'].plot(kind='bar')
plt.show()
- Exporte seus dados processados em vários formatos de arquivo, como CSV, Excel ou JSON:
data.to_csv('processed_data.csv', index=False)
Quais são os diferentes formatos de dados que o pandas pode manipular?
O pandas pode manipular uma ampla variedade de formatos de dados, incluindo:
- CSV: arquivos de valores separados por vírgula.
- JSON: arquivos de notação de objeto JavaScript.
- Excel: arquivos do Microsoft Excel (.xls e .xlsx).
- SQL: dados de bancos de dados relacionais, como SQLite, MySQL e PostgreSQL.
- HTML: dados de tabelas HTML.
- Parquet: formato de armazenamento colunar usado no ecossistema Hadoop.
- HDF5: Hierarchical Data Format usado para armazenar grandes conjuntos de dados.
Como exportar dados do pandas para um arquivo CSV?
Para exportar dados de um DataFrame pandas para um arquivo CSV, use o método to_csv()
:
data.to_csv('output.csv', index=False)
Este comando salvará o DataFrame chamado data
em um arquivo CSV chamado output.csv
. O parâmetro index=False
impede que a coluna de índice seja gravada no arquivo de saída.
Técnicas comuns de limpeza de dados no pandas
Algumas técnicas comuns de limpeza de dados no pandas incluem:
- Manipulação de valores ausentes: Use métodos como
dropna()
,fillna()
einterpolate()
para remover, preencher ou estimar valores ausentes. - Renomeando colunas: use o método
rename()
para renomear colunas em um DataFrame. - Conversão de tipos de dados: Use o método
astype()
para converter colunas para os tipos de dados apropriados. - Filtragem de dados: use a indexação booleana para filtrar linhas com base em condições específicas.
- Remoção de duplicados: use o método
drop_duplicates()
para remover linhas duplicadas de um DataFrame. - Substituir valores: Use o método
replace()
para substituir valores específicos em um DataFrame.
Realizando operações de mesclagem, remodelagem, junção e concatenação usando pandas
Pandas fornece vários métodos para mesclar, remodelar, juntar e concatenar DataFrames, que são úteis para combinar e transformar dados:
- Mesclando: a função
merge()
permite que você mesclifique dois DataFrames com base em colunas ou índices comuns. Você pode especificar o tipo de mesclagem a ser executada, como interno, externo, esquerdo ou direito[^9^]:
merged_data = pd.merge(data1, data2, on='common_column', how='inner')
- Remodelagem: as funções
pivot()
emelt()
são úteis para remodelar DataFrames. A funçãopivot()
é usada para criar um novo DataFrame com um índice hierárquico, enquanto a funçãomelt()
é usada para transformar DataFrames em formato amplo para formato longo[^10^]:
pivoted_data = data.pivot(index='row', columns='column', values='value') melted_data = pd.melt(data, id_vars='identifier', value_vars=['column1', 'column2'])
- Juntando: o método
join()
é usado para juntar dois DataFrames com base em seus índices. Você pode especificar o tipo de junção, semelhante à funçãomerge()
:
joined_data = data1.join(data2, how='inner')
- Concatenação: a função
concat()
é usada para concatenar vários DataFrames ao longo de um eixo específico (linhas ou colunas). Você pode especificar se deseja concatenar ao longo de linhas (eixo = 0) ou colunas (eixo = 1)[^11^]:
concatenated_data = pd.concat([data1, data2], axis=0)
Essas operações são fundamentais para trabalhar com vários DataFrames e podem ser combinadas para criar transformações e análises de dados complexas.
Conclusão
Em resumo, o pandas é uma biblioteca poderosa para manipulação e análise de dados em Python. A função read_csv()
é uma ferramenta essencial para importação de dados de arquivos CSV, e o pandas oferece uma ampla variedade de funções para limpar, analisar e exportar dados. Ao dominar essas técnicas, você pode realizar análises avançadas de dados e criar visualizações perspicazes para impulsionar seus projetos orientados por dados.
Mais tutoriais do Pandas: