Adicionando uma nova coluna a um DataFrame do Pandas: métodos e técnicas

Name: Rajiv Chandra

Published on 17/08/2023

Trabalhar com dataframes é uma parte essencial da análise de dados e ciência de dados. Pandas é uma biblioteca amplamente utilizada para manipulação e análise de dados e fornece uma maneira fácil de usar e flexível de trabalhar com dataframes. Um dataframe é uma estrutura de dados rotulada bidimensional com colunas de diferentes tipos. É como uma planilha ou tabela SQL, mas com mais poder e flexibilidade. Neste artigo, aprenderemos como adicionar uma nova coluna a um dataframe existente do Pandas. Também discutiremos diferentes métodos e técnicas para inserir uma nova coluna em um dataframe do Pandas.

Deseja criar rapidamente visualizações de dados com Python?

PyGWalker é um projeto de código aberto em Python que pode ajudar a acelerar o fluxo de análise e visualização de dados diretamente em ambientes baseados em Jupyter Notebook.

PyGWalker (opens in a new tab) transforma seu Dataframe do Pandas (ou Dataframe do Polars) em uma IU visual onde você pode arrastar e soltar variáveis para criar gráficos com facilidade. Basta usar o seguinte código:

pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)

Você pode executar o PyGWalker agora mesmo com esses cadernos online:

E não esqueça de dar ⭐️ no GitHub!

Execute o PyGWalker no Notebook do Kaggle (opens in a new tab)	Execute o PyGWalker no Google Colab (opens in a new tab)	Dê ⭐️ ao PyGWalker no GitHub (opens in a new tab)
(opens in a new tab)	(opens in a new tab)	(opens in a new tab)

O que é um DataFrame do Pandas?

Um dataframe do Pandas é uma estrutura de dados bidimensional com eixos rotulados. É como uma planilha ou tabela SQL, mas com mais poder e flexibilidade. Um dataframe pode ser criado a partir de vários formatos de dados de entrada como CSV, Excel, banco de dados SQL e outros. Um dataframe pode ser manipulado e analisado usando vários métodos e funções fornecidos pela biblioteca Pandas.

Como adicionar uma nova coluna a um DataFrame do Pandas?

Para adicionar uma nova coluna a um dataframe existente do Pandas, podemos usar vários métodos e técnicas. A maneira mais comum de adicionar uma nova coluna é usar uma atribuição simples. Vamos ver um exemplo.

Suponha que temos um dataframe com duas colunas: 'Name' e 'Age'.

import pandas as pd
 
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Age': [25, 30, 35, 40]
}
 
df = pd.DataFrame(data)

Saída:

       Nome  Idade
0     Alice   25
1       Bob   30
2   Charlie   35
3     David   40

Agora, queremos adicionar uma nova coluna 'Salário' ao 'dataframe'. Podemos usar uma simples atribuição da seguinte forma.

df['Salário'] = [50000, 60000, 70000, 80000]
print(df)

Saída:

       Nome  Idade  Salário
0     Alice   25   50000
1       Bob   30   60000
2   Charlie   35   70000
3     David   40   80000

Podemos ver que uma nova coluna 'Salário' foi adicionada ao 'dataframe'.

Diferentes métodos para inserir uma nova coluna em um DataFrame do Pandas

Existem vários métodos e técnicas para inserir uma nova coluna em um 'dataframe' do Pandas. Vamos discuti-los um por um.

Método 1: Atribuição simples

Como vimos no exemplo anterior, podemos adicionar uma nova coluna a um 'dataframe' usando atribuição simples. Podemos atribuir uma lista ou um array numpy para um novo nome de coluna no 'dataframe' da seguinte forma:

df['NovaColuna'] = [1, 2, 3, 4]

Método 2: Método de inserção

Outra maneira de inserir uma nova coluna em um 'dataframe' do Pandas é usar o método insert. O método insert recebe três argumentos: loc, column e value. Loc é o índice da coluna onde queremos inserir a nova coluna. Column é o nome da nova coluna e value é o valor que queremos atribuir à nova coluna.

df.insert(loc=1, column='NovaColuna', value=[1, 2, 3, 4])

Método 3: Método de Concatenação

Também podemos concatenar dois 'dataframes' ao longo do eixo 1 para adicionar uma nova coluna a um 'dataframe' existente. A nova coluna será adicionada ao lado direito do 'dataframe' existente. O método concat recebe dois 'dataframes' como argumentos e os concatena ao longo do eixo 1.

df2 = pd.DataFrame({'NovaColuna': [1, 2, 3, 4]})
df = pd.concat([df, df2], axis=1)

Método 4: Método Assign

O método assign nos permite criar uma nova coluna em um dataframe e retornar um novo dataframe com a nova coluna. Ele recebe um dicionário como argumento, onde cada chave representa um novo nome de coluna e cada valor representa os valores da nova coluna.

df = df.assign(NovaColuna=[1, 2, 3, 4])

Posso sobrescrever uma coluna existente em um Pandas DataFrame enquanto adiciono uma nova coluna?

Sim, podemos sobrescrever uma coluna existente em um dataframe do Pandas enquanto adicionamos uma nova coluna. Quando atribuímos valores a uma coluna, os valores existentes daquela coluna são substituídos pelos novos valores.

df['Idade'] = [26, 31, 36, 41]

Como posso inserir colunas em uma posição especificada em um Pandas DataFrame?

Podemos inserir colunas em uma posição especificada em um dataframe do Pandas usando o método insert. O parâmetro loc especifica a posição em que a coluna deve ser inserida. Podemos usar o índice inteiro da coluna para especificar sua posição.

df.insert(2, 'NovaColuna', [1, 2, 3, 4])

Também podemos usar o nome da coluna para especificar sua posição.

df.insert(df.columns.get_loc("Idade"), 'NovaColuna', [1, 2, 3, 4])

Conclusão

Neste artigo, aprendemos como adicionar uma nova coluna a um dataframe existente do Pandas. Discutimos diferentes métodos e técnicas para inserir uma nova coluna em um dataframe do Pandas, incluindo atribuição simples, método de inserção, método de concatenação e método de atribuição. Também discutimos como sobrescrever uma coluna existente enquanto adicionamos uma nova coluna e como inserir colunas em uma posição especificada em um dataframe do Pandas. Usando essas técnicas, você pode manipular seus dataframes com eficiência e eficácia.

Pandas 2.0: Novas funcionalidades que você deve conhecer Pandas Crosstab: Create Simple Cross Tabulation Tables in Python