파이썬 데이터 분석 기초: DataFrame 이해하기
데이터 분석은 데이터의 처리, 변환, 분석을 통해 새로운 정보를 도출하는 과정이다. 이때 Pandas 라이브러리의 DataFrame은 이러한 작업을 수행하는 데 필수적인 도구이다. 이번 블로그 포스팅에서는 Pandas DataFrame의 기본 개념과 활용 방법을 알아보자.
DataFrame 이란?
DataFrame은 Pandas 라이브러리에서 가장 중요한 자료형 중 하나이다. 행과 열의 테이블 형태 데이터 구조를 갖는다. 일반적으로 엑셀과 같은 스프레드시트를 생각하면 된다.
Pandas를 이용해 데이터를 불러올 때, 데이터는 DataFrame으로 로드된다. 이때 가장 많이 사용되는 데이터 포맷은 csv 파일이다.
DataFrame 인덱스와 컬럼
DataFrame은 표 모양으로 생각할 수 있고, 좌측에는 행 인덱스, 상단에는 열 인덱스(컬럼)를 가지고 있다. DataFrame 내부에서 각각의 데이터는 행과 열의 위치에 따라서 구분되는 것이다.
DataFrame 생성
DataFrame을 생성하는 방법은 여러가지가 있다. 예를 들어, 딕셔너리, 리스트, csv 파일 등으로부터 DataFrame을 생성할 수 있다.
“`python
딕셔너리로부터 DataFrame 생성
import pandas as pd
data = {‘name’: [‘Kim’, ‘Lee’, ‘Park’, ‘Choi’],
‘age’: [20, 25, 30, 35],
‘score’: [90, 80, 70, 60]}
df = pd.DataFrame(data)
print(df)
출력 결과:
name age score
0 Kim 20 90
1 Lee 25 80
2 Park 30 70
3 Choi 35 60
“`
DataFrame 조작과 수정
DataFrame은 각각의 행과 열에 대한 값들을 쉽게 수정하거나, 조작할 수 있다.
컬럼 선택
DataFrame에서 특정한 컬럼만 선택해서 가져오는 방법은 다음과 같다.
“`python
import pandas as pd
data = {‘name’: [‘Kim’, ‘Lee’, ‘Park’, ‘Choi’],
‘age’: [20, 25, 30, 35],
‘score’: [90, 80, 70, 60]}
df = pd.DataFrame(data)
name 컬럼만 선택
print(df[‘name’])
출력 결과:
0 Kim
1 Lee
2 Park
3 Choi
Name: name, dtype: object
“`
인덱싱 및 슬라이싱
DataFrame에서 특정한 위치에 있는 값들을 선택하는 방법은 다음과 같다.
“`python
import pandas as pd
data = {‘name’: [‘Kim’, ‘Lee’, ‘Park’, ‘Choi’],
‘age’: [20, 25, 30, 35],
‘score’: [90, 80, 70, 60]}
df = pd.DataFrame(data)
1행 2열 값 선택
print(df.iloc[1, 2])
출력 결과: 80
1행 선택
print(df.iloc[1])
출력 결과:
name Lee
age 25
score 80
Name: 1, dtype: object
“`
통계 함수
Pandas에서는 통계 함수를 사용하여 DataFrame 내부의 데이터를 분석할 수 있다. 표준 통계 함수를 포함하여 고유한 통계 함수들도 제공하여 유용하게 사용될 수 있다.
“`python
import pandas as pd
data = {‘name’: [‘Kim’, ‘Lee’, ‘Park’, ‘Choi’],
‘age’: [20, 25, 30, 35],
‘score’: [90, 80, 70, 60]}
df = pd.DataFrame(data)
평균
print(df.mean())
출력 결과:
age 27.50
score 75.00
dtype: float64
“`
이외에도 DataFrame에서는 다양한 기능이 제공된다. DataFrame의 활용과 가독성을 높이기 위해 Pandas를 배우는 것은 매우 중요하다. 이번 포스팅을 통해 Pandas DataFrame에 대한 기초적인 지식을 습득하였다면, 다음 단계로 넘어가서 더욱 복잡한 데이터 분석 작업을 수행할 수 있을 것이다.