Hyunwoo's DATA
statsmodels를 이용한 시계열 자료 분석[1] 본문
시계열 데이터의 특징
추세(Trend) - 데이터가 장기적으로 증가하거나 하락하는 흐름, 선형,지수형 추세가 있다.
계절성 - 1년, 혹은 일정 기간 안에 반복적으로 나타나는 패턴
주기성 - 정해지지 않은 빈도,기간으로 일어나는 상승이나 하락
파이썬 statsmodels를 이용한 시계열 자료 분석
추세변동 추출 hpfilter
호드릭-프레스콧 필터는 거시경제 시계열 데이터에서 장기적인 추세 (Trend Component)와 단기적인 순환(Cyclical Component)을 기술적으로 분리하는 기법이다.
구체적으로 HP 필터는 시계열(𝑦𝑡 ) 데이터를, 추세(𝜏𝑡 )와 추세 주변의 변동(𝑐𝑡 ) 및 오차항(𝑒𝑡 )으로 분리하여 추세 정보를 뽑아낸다.
𝑦𝑡 = 𝜏𝑡 + 𝑐𝑡 + + 𝑒 𝑡 라 가정하고 어떤 어떤 값이 있을 때, 아래의 식을 만족하는 값을 구하면 그것이 추세가 된다.
데이터가 너무 범위가 넓기때문에 아래와 같이슬라이싱해준다
시계열 분해
시계열 분해는 시계열을 여러 개의 구성 요소로 분해하는 통계적인 방법을 말합니다. 시계열 분해에서 시계열 데이터는 체계적 성분과 불규칙적인 성분으로 이루어졌다고 가정하며, 이를 분리하여 시계열 데이터를 분석하고 예측하는 것이 시계열 분해의 목적이라고 합니다. 이때, 체계적인 성분은 추세 성분, 계절 성분, 순환 성분(주기)이 포함되며, 이러한 성분으로 시계열 데이터를 분해하면 데이터의 장기적 추이를 분석하고, 불규칙 성분이 발생한 시점을 찾는 데에 활용할 수 있습니
ETS 모델
ETS는 Erro Tren Seansonality (오차 추세 계절성)의 줄임말으로 사실 지수평활법과 ETS분해,추세모형과 같이 다양한 모델들을 포함하는 일반적인 표현이다.
ETS 분해
분해되는 요소로는 계절성 요소,오차요소,추세요소
더하거나 곱하거나 혹은 일부를 사용하지 않고 데이터를 평활화한다.
모델에 따라 주요 요소에 기반해 우리 데이터에 맞는 일반화한 모형을 만든다
from statsmodels.tsa.seasonal import seasonal_decompose
result = seasonal_decompose(airline['Thousands of Passengers'],model='multiplicative')
제일 위에는 원본데이터
다음으로는 추세,계절성, 잔차항을 보여준다
잔차 요소는 추세나 계절성으로 설명되지 않는 것들을 나타낸다.잔차는 노이즈와 비슷하며 어디에 노이즈가 많은지를 보여주기도 한다.
ETS모델을 덧셈모델과 곱셈모델 두 종류가 있다.
덧셈 모델은 매년 일정 수가 증가하는 것 같이 선형에 더 가깝고 계절성이 거의 일정하다
곱셈모델은 승객이 전년 대비 두배 늘어나는 것 같이 지수적으로 증가하거나 감소하는 것 과 같다.
EWMA모델
EWMA모델이라고도 불리는 지수 가중 이동 평균을 뜻하고 SMA(단순 이동평균)의 단점을 보완한다.
단순 이동평균의 단점은 짧은 이동 평균기간을 이용하면 신호보다 잡음이 커질수 잇다.
또한 단순 이동 평균은 실제로 미래 변동에 대해 어떠한 정보를 지니고 있지않다.
단순히 현재 데이터의 일반적 추세만을 보여줄 뿐 극단적으로 크거나 작은 값은 단순 이동 평균을 왜곡시킬 위험이 존재한다.
이러한 문제들은 EWMA모델들을 통해서 해결할 수 있다.
EWMA모델은 최근의 값들에 가중치를 적용함으로써 단순 이동 평균에서의 시차 효과를 감소시킵니다.
식
데이터가 오래될 수록 더 작은 가중치가 곱해집니다.
'데이터분석 > 시계열 분석' 카테고리의 다른 글
SARIMA-계절성 자기회귀 통합 이동평균 (0) | 2023.12.18 |
---|---|
기술 통계학과 검정-디키 풀러 테스트,AIC,BIC (0) | 2023.12.12 |
자기 상관 - ACF,PACF,정상성이란? (0) | 2023.12.08 |
회귀 모델 성능 평가 지표(MAE,MSE,RMSE) (1) | 2023.12.08 |
statsmodels를 이용한 시계열 자료 분석[2] 홀트-윈터스 계절성 기법 (0) | 2023.12.07 |