탐색 적 데이터 분석

탐색적 데이터 분석(EDA)이란?

탐색적 데이터 분석(EDA)은 데이터마이닝, 기계 학습 등 분석을 위한 데이터를 구성하는 과정 중에서 가장 기본이 되는 단계입니다. 이 과정은 데이터를 수집하고 모델링하는 것이 아닌 데이터의 품질과 특징을 조사하고 이해하는 것을 목적으로 합니다.

EDA의 필요성과 장점

EDA를 수행함으로써 데이터의 전반적인 특성을 파악하고, 분할적 분석에 앞서 전체적인 상황을 이해하는 것이 가능합니다. 또한 EDA를 수행하면 데이터 분석의 정확성을 높이고 모델링에서 발생할 수 있는 문제점을 사전에 예방할 수 있습니다.

EDA의 가장 큰 장점은 디테일한 분석 결과를 일일이 찾지 않아도, 쉽게 파악이 가능하다는 것입니다.

EDA의 단계

EDA는 크게 3단계로 나눌 수 있습니다.

1. 데이터 이해

EDA의 첫 번째 단계로, 데이터를 받으면 해당 데이터에 대한 이해와 정의를 해야합니다. 일반적으로 데이터의 형태는 CSV, 엑셀, JSON 등의 파일 형식으로 제공됩니다.

아래는 CSV 파일 형식 중 샘플 데이터 파일입니다.

python
User, Gender, Age, Ratings
1, Male, 35, 4.05
2, Male, 22, 4.10
3, Female, 27, 3.71
4, Female, 29, 3.02
5, Female, 31, 2.91

위 데이터는 ‘User, Gender, Age, Ratings’이라는 4개의 컬럼으로 이루어져 있으며, 이를 통해 관찰하고자 하는 대상을 파악할 수 있습니다.

2. 데이터 분석

EDA의 두 번째 단계에서는 데이터 분석을 수행합니다. 데이터를 분석하기 위해 각 컬럼의 성격에 따라 데이터 타입을 지정하고, 결측치, 이상치 등을 확인합니다.

데이터 분석의 예시로, ‘Ratings’ 컬럼의 분포를 확인해보겠습니다.

EDA_Ratings

먼저 평점이 2 이하인 사용자 수가 많다는 것을 파악할 수 있습니다. 또한, 해당 데이터의 특징에 따라 대부분의 데이터가 영화 평점을 3.0 ~ 4.5 사이에서 준다는 것을 알 수 있습니다.

3. 시각화

EDA의 마지막 단계에서는 데이터 시각화를 수행합니다. 시각화는 데이터 형태에 따른 성격이나 분포를 바로 알아볼 수 있기 때문에 이전 분석 결과를 시각화하면 데이터 변화를 더 잘 이해할 수 있게 됩니다.

예를 들어서, ‘Ratings’ 컬럼의 평점 분포를 히스토그램으로 시각화하면 아래와 같습니다.

EDA_Ratings_hist

위 그래프에서 알 수 있는 내용은, 대부분의 사용자가 4.0 이상의 평점을 주었으며, 그 중 4.0 ~ 4.5점을 주는 사용자가 가장 많다는 것입니다.

결론

탐색적 데이터 분석은 기존 데이터의 특징을 파악하고, 수집한 데이터의 성격과 특징을 정확하게 파악하는 것이 매우 중요합니다.

이와 같은 분석을 통해 데이터 분석의 정확성을 높이고, 모델링에서 발생할 수 있는 문제점을 사전에 예방할 수 있습니다. 따라서 데이터 분석의 과정에서 EDA를 수행하는 것은 매우 중요한 요소입니다.