파이썬 통계 분석

파이썬을 이용한 통계 분석

통계 분석은 데이터를 수집, 분석하고 결과를 해석하여 의사 결정을 내리는 과정입니다. 파이썬은 데이터 처리와 분석에 강력한 기능을 제공하는데 이를 이용하여 통계 분석을 수행할 수 있습니다. 이번 글에서는 파이썬을 이용한 통계 분석의 기본적인 내용을 살펴보겠습니다.

데이터 불러오기

먼저 분석할 데이터를 불러와야 합니다. 파이썬에서는 pandas 라이브러리를 이용하여 다양한 형식의 데이터를 불러올 수 있습니다. 예를 들어 csv 파일을 불러오는 코드는 아래와 같습니다.

python
import pandas as pd
df = pd.read_csv("data.csv")

위 코드에서 df는 데이터를 저장할 변수명이며, read_csv 함수를 이용하여 csv 파일을 불러와서 데이터프레임 형태로 저장합니다. 데이터프레임은 여러개의 열로 이루어진 2차원 행렬로 각 열마다 데이터의 종류가 다르게 저장할 수 있습니다.

기술 통계량 계산하기

데이터를 불러왔으면 각 변수(열)의 기술통계량(descriptive statistics)을 계산하여 데이터의 대략적인 특성을 파악할 수 있습니다. 기술통계량에는 평균, 표준편차, 사분위수, 최소/최대값 등이 있습니다. pandas에서는 describe 함수를 이용하여 데이터의 기술 통계량을 한 번에 계산할 수 있습니다.

python
df.describe()

위 코드를 실행하면 df 데이터프레임의 모든 수치형 변수에 대한 기술통계량이 출력됩니다.

데이터 시각화하기

데이터 분석에서 시각화는 매우 중요합니다. 시각화를 통해 데이터의 분포와 패턴 등을 파악할 수 있습니다. pandas 라이브러리의 plot 함수를 이용하여 시각화를 할 수 있습니다.

python
import matplotlib.pyplot as plt
df["var1"].plot.hist(bins=50, alpha=0.5)
plt.show()

위 코드는 var1 변수를 히스토그램으로 시각화하는 코드입니다. bins는 히스토그램에서 막대의 개수를 설정하는 파라미터이고, alpha는 투명도를 설정하는 파라미터입니다.

가설 검정하기

통계에서는 주어진 가설이 참인지 거짓인지를 검정하는 작업을 수행합니다. 파이썬에서는 scipy 라이브러리를 이용하여 가설 검정을 수행할 수 있습니다. 예를 들어, t-test를 수행하는 코드는 아래와 같습니다.

python
from scipy.stats import ttest_ind
var1_sample = df[df["group"] == "A"]["var1"]
var2_sample = df[df["group"] == "B"]["var1"]
t_stat, p_val = ttest_ind(var1_sample, var2_sample)

위 코드는 “group” 변수가 “A”와 “B”인 경우에 대해 var1 변수의 t-test를 수행하는 코드입니다. ttest_ind 함수는 두 개의 샘플에 대한 t-statistic과 p-value를 반환합니다.

결론

이번 글에서는 파이썬을 이용하여 데이터를 불러오고, 기술 통계량을 계산하고, 데이터를 시각화하며, 가설 검정을 수행하는 기본적인 내용을 살펴보았습니다. 파이썬은 데이터 분석과 통계 분석에 매우 유용한 도구이므로, 데이터 분석을 공부하고자 하는 분들에게는 꼭 배우셨으면 좋겠습니다.