Renomeando colunas no Pandas: Um guia completo
Published on
A análise de dados é uma tarefa crucial no mundo orientado por dados atual. Ela requer a limpeza, organização e transformação de dados brutos em um formato compreensível e significativo. Uma das tarefas mais fundamentais na análise de dados é a renomeação de colunas, pois isso torna os dados mais informativos e compreensíveis.
Neste tutorial, vamos explorar como renomear colunas em um DataFrame do Pandas usando diferentes métodos. Discutiremos as melhores práticas, dicas e truques para tornar sua análise de dados mais clara e concisa. Vamos começar!
Quer criar rapidamente visualizações de dados de um DataFrame do Pandas com nenhum código?
PyGWalker é uma biblioteca Python para Análise Exploratória de Dados com Visualização. PyGWalker (opens in a new tab) pode simplificar seu fluxo de trabalho de análise de dados e visualização de dados do Jupyter Notebook, transformando seu dataframe do pandas (e dataframe do polars) em uma interface do usuário do estilo do Tableau para exploração visual.
O que é Renomear Coluna no DataFrame?
Antes de mergulharmos na parte do código, vamos primeiro entender o que é a renomeação de colunas em um DataFrame do Pandas e por que isso é importante.
Em um DataFrame do Pandas, as colunas são nomeadas como identificadores exclusivos que distinguem uma coluna da outra. Às vezes, esses identificadores exclusivos não são informativos ou inconsistentes com os dados, o que pode levar à confusão e interpretação incorreta. Nesses casos, a renomeação de colunas ajuda a tornar os dados mais informativos e compreensíveis.
A renomeação de colunas é um processo de mudar o nome de uma ou mais colunas em um DataFrame do Pandas. Isso é feito selecionado os rótulos das colunas ou seus índices. Isso melhora a legibilidade dos dados e ajuda a entender as relações entre diferentes colunas.
Como Renomear uma Coluna em um DataFrame do Pandas?
O Pandas fornece várias maneiras de renomear colunas em um DataFrame. Vamos explorar os métodos mais comumente usados e as melhores práticas para renomear colunas.
Renomeando uma Única Coluna
Vamos começar com o método mais básico de renomear uma única coluna em um DataFrame do Pandas. Vamos usar o método rename
para fazer isso.
# Criar um DataFrame de exemplo
import pandas as pd
data = {'Nome': ['John', 'Alex', 'Peter'],
'Idade': [25, 24, 28],
'Gênero': ['Masculino', 'Masculino', 'Masculino']}
df = pd.DataFrame(data)
# Renomear a coluna 'Idade' para 'Anos'
df = df.rename(columns={'Idade': 'Anos'})
# Imprimir o DataFrame
print(df)
Output:
Nome Anos Gênero
0 John 25 Masculino
1 Alex 24 Masculino
2 Peter 28 Masculino
Aqui, criamos um DataFrame de exemplo com as colunas Nome
, Idade
e Gênero
. Usamos o método rename
para mudar o nome da coluna Idade
para Anos
. O método rename
recebe um dicionário como entrada, onde as chaves são os antigos nomes das colunas e os valores são os novos nomes das colunas.
Renomeando Múltiplas Colunas
Renomear uma única coluna é fácil, mas e se quisermos renomear várias colunas ao mesmo tempo? Nesses casos, podemos usar o mesmo método rename
com um dicionário de nomes antigos e novos de colunas.
# Criar um DataFrame de exemplo
import pandas as pd
data = {'Nome': ['John', 'Alex', 'Peter'],
'Idade': [25, 24, 28],
'Departamento': ['TI', 'RH', 'Marketing']}
df = pd.DataFrame(data)
# Renomear as colunas 'Idade' e 'Departamento'
df = df.rename(columns={'Idade': 'Anos', 'Departamento': 'Dept'})
# Imprimir o DataFrame
print(df)
Output:
Nome Anos Dept
0 John 25 TI
1 Alex 24 RH
2 Peter 28 Marketing
Aqui, renomeamos duas colunas, Idade
para Anos
e Departamento
para Dept
, usando o método rename
com um dicionário de nomes antigos e novos de colunas.
Renomeando Colunas usando o Método set_axis
Outra forma de renomear colunas em um DataFrame do Pandas é usando o método set_axis
. É um método flexível e conveniente que permite renomear as colunas sem criar uma nova cópia do DataFrame.
# Criar um DataFrame de exemplo
import pandas as pd
data = {'Nome': ['John', 'Alex', 'Peter'],
'Idade': [25, 24, 28],
'Departamento': ['TI', 'RH', 'Marketing']}
df = pd.DataFrame(data)
# Renomear as colunas 'Idade' e 'Departamento' usando o método set_axis
df.set_axis(['Nome', 'Anos', 'Dept'], axis=1, inplace=True)
# Imprimir o DataFrame
print(df)
Output:
Nome Anos Dept
0 John 25 TI
1 Alex 24 RH
2 Peter 28 Marketing
Aqui, renomeamos duas colunas, Idade
para Anos
e Departamento
para Dept
, usando o método set_axis
no próprio DataFrame, sem criar uma nova cópia.O seguinte código em mdx com YAML na frente pode ser usado para renomear as colunas selecionando seu índice ou rótulo.
# Crie um DataFrame de exemplo
import pandas as pd
data = {'Name': ['John', 'Alex', 'Peter'],
'Age': [25, 24, 28],
'Gender': ['Male', 'Male', 'Male']}
df = pd.DataFrame(data)
# Renomeie as colunas 'Age' e 'Gender' por índice
df.columns = df.columns.set_axis(['a', 'Years', 'b'], axis=1, inplace=False)
# Imprima o DataFrame
print(df)
Saída:
Name Years b
0 John 25 Male
1 Alex 24 Male
2 Peter 28 Male
Aqui, usamos o método set_axis
para renomear as colunas com posições de índice. O método usa três parâmetros - labels, axis e inplace. Definimos os labels como os novos nomes das colunas e o axis como 1, que representa as colunas. O parâmetro inplace é definido como False para retornar um novo DataFrame.
Renomeando colunas usando List Comprehension
Também podemos renomear colunas no Pandas DataFrame usando list comprehension. É um método simples e elegante que permite renomear várias colunas de uma só vez.
# Crie um DataFrame de exemplo
import pandas as pd
data = {'Name': ['John', 'Alex', 'Peter'],
'Age': [25, 24, 28],
'Department': ['IT', 'HR', 'Marketing']}
df = pd.DataFrame(data)
# Renomeie as colunas 'Age' e 'Department' usando list comprehension
df.columns = [col.replace('_', ' ').title() for col in df.columns]
# Imprima o DataFrame
print(df)
Saída:
Name Age Department
0 John 25 IT
1 Alex 24 HR
2 Peter 28 Marketing
Aqui, usamos a list comprehension para renomear as colunas, substituindo os underscores por espaços e convertendo a primeira letra para maiúscula usando o método title()
.
DataFrame Renomear por Índice
Também é possível renomear uma coluna por índice no Pandas DataFrame. Podemos usar o método rename
com um dicionário de posições de coluna antigas e novas.
# Crie um DataFrame de exemplo
import pandas as pd
data = {'Name': ['John', 'Alex', 'Peter'],
'Age': [25, 24, 28],
'Department': ['IT', 'HR', 'Marketing']}
df = pd.DataFrame(data)
# Renomeie a coluna '2' para 'Dept' por índice
df = df.rename(columns={2: 'Dept'})
# Imprima o DataFrame
print(df)
Saída:
Name Age Dept
0 John 25 IT
1 Alex 24 HR
2 Peter 28 Marketing
Aqui, usamos o método rename
para renomear a coluna com a posição do índice 2 para Dept
.
DataFrame Renomear Coluna com Lista
Também podemos renomear colunas no Pandas DataFrame selecionando uma lista de nomes de colunas. Vejamos como é feito.
# Crie um DataFrame de exemplo
import pandas as pd
data = {'Name': ['John', 'Alex', 'Peter'],
'Age': [25, 24, 28],
'Department': ['IT', 'HR', 'Marketing']}
df = pd.DataFrame(data)
# Renomeie as colunas 'Name' e 'Department' usando uma lista de nomes de colunas
df.columns = ['ID', 'Years', 'Dept']
# Imprima o DataFrame
print(df)
Saída:
ID Years Dept
0 John 25 IT
1 Alex 24 HR
2 Peter 28 Marketing
Aqui, usamos uma lista de nomes de colunas para renomear as colunas Name
e Department
para ID
e Dept
, respectivamente.
Conclusão
Neste tutorial, aprendemos como renomear colunas no Pandas DataFrame usando diferentes métodos - o método rename
, o método set_axis
, list comprehension, renomeando por índice e renomeando com uma lista. Também exploramos as melhores práticas, dicas e truques para tornar sua análise de dados mais organizada e informativa.
A renomeação de colunas é uma etapa crítica na análise de dados, pois aprimora a legibilidade dos dados e ajuda a entender as relações entre diferentes colunas. Usando os métodos discutidos acima, você pode facilmente renomear colunas no Pandas DataFrame e tornar sua análise de dados mais eficaz e eficiente.
Esperamos que este tutorial tenha sido útil e informativo. Boa programação!
Links:
- Dict to DataFrame in Pandas
- Add a Column to a DataFrame in Pandas
- Creating a DataFrame in R
- Sort DataFrame in Pandas
- Add a Row to a DataFrame in Pandas
- Creating an Empty DataFrame in Pandas
Perguntas frequentes
-
Como renomear uma coluna em um DataFrame?
Para renomear uma coluna em um DataFrame, é possível utilizar o método
rename()
do Pandas. Esse método permite especificar um dicionário ou um mapeamento que relacione os nomes antigos das colunas com os novos nomes das colunas. Com esse método, é possível renomear uma coluna individual ou múltiplas colunas de uma só vez. -
Como renomear uma coluna pelo índice da coluna no Pandas?
No Pandas, é possível renomear uma coluna pelo índice da coluna utilizando o parâmetro
columns
do métodorename()
. Deve-se passar um dicionário onde as chaves são os índices das colunas atuais e os valores são os novos nomes das colunas. Com esse método, é possível renomear as colunas com base na posição delas no DataFrame. -
Como renomear múltiplas colunas em um DataFrame?
Para renomear múltiplas colunas em um DataFrame, pode-se utilizar o método
rename()
com o parâmetrocolumns
. Deve-se passar um dicionário onde as chaves são os nomes das colunas atuais e os valores são os novos nomes das colunas. Esse método permite renomear várias colunas ao mesmo tempo. Além disso, proporciona flexibilidade para renomear seletivamente as colunas com base em critérios específicos.