Adicionando uma nova coluna a um DataFrame do Pandas: métodos e técnicas
Published on
Trabalhar com dataframes é uma parte essencial da análise de dados e ciência de dados. Pandas é uma biblioteca amplamente utilizada para manipulação e análise de dados e fornece uma maneira fácil de usar e flexível de trabalhar com dataframes. Um dataframe é uma estrutura de dados rotulada bidimensional com colunas de diferentes tipos. É como uma planilha ou tabela SQL, mas com mais poder e flexibilidade. Neste artigo, aprenderemos como adicionar uma nova coluna a um dataframe existente do Pandas. Também discutiremos diferentes métodos e técnicas para inserir uma nova coluna em um dataframe do Pandas.
Deseja criar rapidamente visualizações de dados com Python?
PyGWalker é um projeto de código aberto em Python que pode ajudar a acelerar o fluxo de análise e visualização de dados diretamente em ambientes baseados em Jupyter Notebook.
PyGWalker (opens in a new tab) transforma seu Dataframe do Pandas (ou Dataframe do Polars) em uma IU visual onde você pode arrastar e soltar variáveis para criar gráficos com facilidade. Basta usar o seguinte código:
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
Você pode executar o PyGWalker agora mesmo com esses cadernos online:
E não esqueça de dar ⭐️ no GitHub!
O que é um DataFrame do Pandas?
Um dataframe do Pandas é uma estrutura de dados bidimensional com eixos rotulados. É como uma planilha ou tabela SQL, mas com mais poder e flexibilidade. Um dataframe pode ser criado a partir de vários formatos de dados de entrada como CSV, Excel, banco de dados SQL e outros. Um dataframe pode ser manipulado e analisado usando vários métodos e funções fornecidos pela biblioteca Pandas.
Como adicionar uma nova coluna a um DataFrame do Pandas?
Para adicionar uma nova coluna a um dataframe existente do Pandas, podemos usar vários métodos e técnicas. A maneira mais comum de adicionar uma nova coluna é usar uma atribuição simples. Vamos ver um exemplo.
Suponha que temos um dataframe com duas colunas: 'Name' e 'Age'.
import pandas as pd
data = {
'Name': ['Alice', 'Bob', 'Charlie', 'David'],
'Age': [25, 30, 35, 40]
}
df = pd.DataFrame(data)
Saída:
Nome Idade
0 Alice 25
1 Bob 30
2 Charlie 35
3 David 40
Agora, queremos adicionar uma nova coluna 'Salário' ao 'dataframe'. Podemos usar uma simples atribuição da seguinte forma.
df['Salário'] = [50000, 60000, 70000, 80000]
print(df)
Saída:
Nome Idade Salário
0 Alice 25 50000
1 Bob 30 60000
2 Charlie 35 70000
3 David 40 80000
Podemos ver que uma nova coluna 'Salário' foi adicionada ao 'dataframe'.
Diferentes métodos para inserir uma nova coluna em um DataFrame do Pandas
Existem vários métodos e técnicas para inserir uma nova coluna em um 'dataframe' do Pandas. Vamos discuti-los um por um.
Método 1: Atribuição simples
Como vimos no exemplo anterior, podemos adicionar uma nova coluna a um 'dataframe' usando atribuição simples. Podemos atribuir uma lista ou um array numpy para um novo nome de coluna no 'dataframe' da seguinte forma:
df['NovaColuna'] = [1, 2, 3, 4]
Método 2: Método de inserção
Outra maneira de inserir uma nova coluna em um 'dataframe' do Pandas é usar o método insert
. O método insert
recebe três argumentos: loc
, column
e value
. Loc
é o índice da coluna onde queremos inserir a nova coluna. Column
é o nome da nova coluna e value
é o valor que queremos atribuir à nova coluna.
df.insert(loc=1, column='NovaColuna', value=[1, 2, 3, 4])
Método 3: Método de Concatenação
Também podemos concatenar dois 'dataframes' ao longo do eixo 1 para adicionar uma nova coluna a um 'dataframe' existente. A nova coluna será adicionada ao lado direito do 'dataframe' existente. O método concat
recebe dois 'dataframes' como argumentos e os concatena ao longo do eixo 1.
df2 = pd.DataFrame({'NovaColuna': [1, 2, 3, 4]})
df = pd.concat([df, df2], axis=1)
Método 4: Método Assign
O método assign
nos permite criar uma nova coluna em um dataframe e retornar um novo dataframe com a nova coluna. Ele recebe um dicionário como argumento, onde cada chave representa um novo nome de coluna e cada valor representa os valores da nova coluna.
df = df.assign(NovaColuna=[1, 2, 3, 4])
Posso sobrescrever uma coluna existente em um Pandas DataFrame enquanto adiciono uma nova coluna?
Sim, podemos sobrescrever uma coluna existente em um dataframe do Pandas enquanto adicionamos uma nova coluna. Quando atribuímos valores a uma coluna, os valores existentes daquela coluna são substituídos pelos novos valores.
df['Idade'] = [26, 31, 36, 41]
Como posso inserir colunas em uma posição especificada em um Pandas DataFrame?
Podemos inserir colunas em uma posição especificada em um dataframe do Pandas usando o método insert
. O parâmetro loc
especifica a posição em que a coluna deve ser inserida. Podemos usar o índice inteiro da coluna para especificar sua posição.
df.insert(2, 'NovaColuna', [1, 2, 3, 4])
Também podemos usar o nome da coluna para especificar sua posição.
df.insert(df.columns.get_loc("Idade"), 'NovaColuna', [1, 2, 3, 4])
Conclusão
Neste artigo, aprendemos como adicionar uma nova coluna a um dataframe existente do Pandas. Discutimos diferentes métodos e técnicas para inserir uma nova coluna em um dataframe do Pandas, incluindo atribuição simples, método de inserção, método de concatenação e método de atribuição. Também discutimos como sobrescrever uma coluna existente enquanto adicionamos uma nova coluna e como inserir colunas em uma posição especificada em um dataframe do Pandas. Usando essas técnicas, você pode manipular seus dataframes com eficiência e eficácia.