파이썬 시계열 분석

시계열 분석이란 무엇인가?

시계열 분석은 데이터의 변화를 시간에 따라 분석하는 방법론을 의미합니다. 우리가 흔히 알고 있는 주가나 기후, 공급량 등은 모두 시계열 데이터입니다. 이러한 데이터를 통해 미래의 값을 예측하거나 과거의 패턴을 파악하여 비즈니스 전략을 수립할 수 있습니다.

시계열 분석은 회귀 분석과 같은 통계 분석과는 달리, 데이터가 시간적으로 연관되어 있기 때문에 일반적인 통계 분석 방법과는 다른 방법론을 사용해야 합니다. 이러한 방법론 중에 대표적인 것으로 ARIMA(Autoregressive Integrated Moving Average)와 Prophet이 있습니다.

ARIMA란 무엇인가?

ARIMA는 자기 회귀(p)와 차분(d), 이동 평균(q)을 활용하는 모형입니다. ARIMA 모델은 분석 대상의 이전 상태가 현재 상태와 상관 관계가 있다는 가정 아래, 미래의 값을 예측하는 모델입니다.

ARIMA는 시계열 데이터의 정상성을 검정하는 것이 매우 중요합니다. 만약 데이터가 비정상적이면 모델의 예측이 부정확할 수 있습니다. 따라서 기본적으로는 시계열 데이터가 정상성을 가지지 않으면 차분(differencing)을 통해 데이터를 변환하여 정상성을 확보합니다.

ARIMA 모델은 이론적으로 예측을 정확히 할 수 있습니다. 하지만 실제 데이터에서는 완벽한 예측을 할 수 없는 경우가 많습니다.

Prophet이란 무엇인가?

Prophet은 Facebook에서 개발한 시계열 예측 모델입니다. Prophet은 ARIMA와 달리 비정상적인 데이터를 다루는 데 강합니다.

Prophet은 시간 범위 (주기성), 휴일 효과 (예: 크리스마스) 및 시간 변화에 대한 불확실성을 모델화합니다. 이를 통해 주기성과 이상 값을 감지하여 예측을 수행합니다.

Prophet은 ARIMA 모델과 달리 동적 회귀(Dynamic regression)와 같은 추가 변수를 바로 적용할 수 있습니다. 예를 들어, 주식 가격을 예측할 때, 우리는 에너지 가격, 환율 등과 같은 다른 변수들이 있다면 이를 모델에서 고려할 수 있습니다.

적용 사례

최근 코로나19의 발생으로 인해 많은 관심을 받은 건강 분야에서도 시계열 분석의 활용이 증가하고 있습니다. 이를 예로 들어보겠습니다.

코로나19 발생 이후 전 세계적으로 건강 의식이 높아져 건강 보조식품 시장이 급성장하고 있습니다. 그 중 미국 건강 보조식품 시장의 판매액은 적자에서 흑자로 돌아서고 있습니다.

Prophet 모델을 통해 이러한 추세를 예측하는 모델을 만들 수 있습니다. 또한 같은 모델에서 환경 변수, 경제 변수 등을 동적 변수로 추가하여 미래의 건강 보조식품 시장 판매액을 예측하는 것도 가능합니다.

결론

시계열 분석은 시간과 함께 변화하는 데이터를 이해하고 예측하는 데 매우 유용한 방법론입니다. ARIMA와 Prophet 모델은 각각의 장단점이 있으며, 사용할 데이터의 특성과 목적에 따라 적절한 모델을 선택해야 합니다. 사용 사례를 충분히 파악하고 시계열 분석에 대한 이해도를 높이는 것이 중요합니다.