판다스 평균 함수 사용 방법
Published on
판다스는 데이터 과학자가 데이터를 조작하는 강력한 도구를 제공하는 파이썬의 중요한 라이브러리 중 하나입니다. 이러한 도구 중 하나는 자주 사용되는 판다스 평균 함수입니다. 정의에 따르면, 평균 함수는 주어진 데이터 집합의 숫자의 평균을 계산하지만, 데이터 분석에서의 응용은 훨씬 깊이 있습니다.
파이썬에서 빠르게 데이터 시각화를 만들고 싶나요?
PyGWalker는 Jupyter Notebook 기반 환경에서 데이터 분석 및 시각화 작업을 직접적으로 가속화할 수 있는 오픈 소스 파이썬 프로젝트입니다.
푸른색의 코드를 사용하여 Pandas DataFrame (또는 Polars DataFrame)을 'visual' UI로 변환하여 변수를 드래그 앤 드롭하여 쉽게 그래프를 만들 수 있습니다.
pip install pygwalker
import pygwalker as pyg
gwalker = pyg.walk(df)
이제 다음 온라인 노트북에서 PyGWalker를 실행할 수 있습니다:
그리고 GitHub에서 ⭐️를 꼭 눌러주세요!
판다스 평균 이해하기
판다스 평균 함수는 데이터프레임과 시리즈 모두에 적용할 수 있습니다. 데이터프레임에 적용하면 지정된 축에서 평균을 반환하고, 시리즈에서 사용하면 스칼라 값, 즉 하나의 한 숫자를 생성합니다.
기본 구문:
pandas.DataFrame.mean()
pandas.Series.mean()
평균, 중앙 값, 최빈값을 이해하는 것은 모든 데이터 분야에서 중요합니다. 평균 계산을 위해 축(행 또는 열)을 선택하는 것은 그 유연성을 강조합니다.
판다스 평균의 필수 매개 변수
올바르게 사용하기 위해 평균 함수의 매개 변수를 이해하는 것이 중요합니다.
-
axis
: 축 매개 변수는 계산할 축에서 행(axis='columns' 또는 1) 또는 열(axis='index' 또는 0) 중 하나를 선택합니다. -
skipna
(기본값은 True): 이 파라미터는 결과를 계산할 때 NA/null 값을 포함할 것인지 제외할 것인지 결정합니다. False로 설정하고 데이터에 NA 값이 있는 경우, 평균 함수는 "NaN"을 반환합니다. -
level
: 이는 멀티 인덱스 DataFrame을 처리할 때 사용됩니다. 평균 계산을 위한 레벨 (또는 int)의 이름을 전달할 수 있습니다. -
numeric_only
: 이 파라미터는 DataFrame에 혼합된 데이터 타입이 포함되어 있는 경우 유용합니다. 일반적으로 이 값을 기본값으로 두는 것이 좋습니다.
예제로 살펴보기
Pandas Mean 함수가 어떻게 작동하는지 몇 가지 예제를 통해 살펴보겠습니다.
기본 사용법:
import pandas as pd
# 간단한 데이터프레임 만들기
df = pd.DataFrame({
'A': [1, 2, 3],
'B': [4, 5, 6],
'C': [7, 8, 9]
})
print(df.mean())
위 예제에서는 각 열의 평균을 계산하고 있습니다. 출력 결과는 열 A, B, C의 평균을 담은 시리즈가 됩니다.
축 매개변수 사용:
print(df.mean(axis='columns'))
여기서는 행 방향으로 평균을 계산합니다. 출력 결과는 각 행의 평균을 담은 시리즈가 됩니다.
skipna 매개변수 사용:
df = pd.DataFrame({
'A': [1, 2, 3, None],
'B': [4, None, 6, 7],
'C': [7, 8, None, 9]
})
print(df.mean(skipna=False))
이 예제에서는 skipna를 False로 설정하여 NA 값을 포함하여 계산합니다. 데이터에 NA 값이 있기 때문에 평균 함수는 평균을 위해 "NaN"을 반환합니다.
결론
Pandas Mean 함수는 데이터 분석에 매우 강력한 도구입니다. 계산하려는 축을 선택하고 널 값 처리를 제어하는 유연성을 제공합니다. 파라미터와 사용법을 이해하면, 이 함수의 모든 기능을 활용할 수 있습니다. 예제를 통한 연습과 일관된 사용으로 익숙해져 보세요.