[예측방법론] 2강. 시계열 데이터 분석 기초 정리

예측방법론 2강 — 시계열 데이터 분석 기초 정리

안녕하세요! 이번 포스팅에서는 시계열 데이터의 개념과 처리 방법을 초보자분들도 이해하기 쉽게 정리해보겠습니다.
특히 시간에 따라 변화하는 데이터를 분석하고 예측하는 데 필수적인 개념과 기법들을 정리했으니, 데이터마이닝, 통계분석, 경제예측을 공부하시는 분들께 추천드립니다.


1. 시계열 데이터란?

시간의 흐름에 따라 수집된 연속적인 데이터를 의미합니다.

  • 국내총생산(GDP), 주가, 금리, 기온, 환율, 실업률

  • 월별, 분기별, 연도별 수치

횡단면자료(Cross-sectional data): 같은 시점의 여러 개체 정보
패널데이터(Panel data): 여러 개체의 시계열 자료

2. 시계열 데이터의 변동 요인

시간에 따라 데이터 값이 변하는 이유는 여러 요인이 작용하기 때문입니다.

주요 변동 요인

추세변동(Trend) : 전반적인 상승/하락
계절변동(Seasonality) : 계절적 반복 패턴
순환변동(Cycle) : 경기변동과 같은 긴 주기의 변동
불규칙변동(Irregular) : 예측 불가능한 일시적 요동

3. 변수 변환

데이터의 분포나 변동성을 안정화하고, 정규성이나 선형성 가정을 만족시키기 변수 변환을 실시합니다.

① 로그 변환 (Log transformation)

정의

변수를 로그 값으로 변환

Y=log(Y)

언제 쓰나?

 

  • 값의 분포가 오른쪽으로 긴 꼬리(positive skewness)일 때

  • 분산이 큰 값을 줄이고, 작은 값의 영향력 키울 때

Box-Cox 변환

정의

데이터를 최적의 λ (람다) 값으로 변환해 정규성 확보

Y=Yλ1λ

단, λ=0일 때는 로그 변환과 같음.

언제 쓰나?

 

  • 데이터 분포 왜도(skewness)가 클 때

  • 정규성, 분산의 안정성 확보하고 싶을 때

또한 영업일수 조정이 필요한 경우도 있어, 월별 데이터의 일수 차이를 반영하기도 합니다.

4. 차분(Differencing)

추세나 계절성을 제거해 데이터를 정상화(stationary)하는 기법

방법

  • 1차 차분: 현재값과 이전값의 차

 

YtYt1Y_t – Y_{t-1}

  • 계절 차분: 현재값과 1년 전 값의 차

 

YtYtsY_t – Y_{t-s}

5. 평활화(Smoothing)

데이터의 불규칙한 단기 변동을 완화해 추세나 패턴을 더 명확하게 보기 위해 사용하는 기법

시계열 데이터에서 노이즈 제거하고 전체 흐름을 보기 좋게 만들어주는 도구

① 이동평균법 (Moving Average)

여러 시점의 값을 평균 내서 그걸 하나의 값으로 바꾸는 방법

종류

    • 단순 이동평균 (Simple Moving Average, SMA)
      일정 기간 데이터의 산술 평균

      MAt=Xtn+1+Xtn+2+...+Xtn

      n: 평균을 낼 기간(평활 이동평균 항수)

    • 가중 이동평균 (Weighted Moving Average, WMA)
      최근 값에 더 높은 가중치를 주는 평균

      WMAt=w1Xtn+1+w2Xtn+2+...+wnXtw1+w2+...+wn

② 지수평활법 (Exponential Smoothing)

과거 자료에 지수적으로 가중치를 두어 최근 데이터에 더 많은 비중을 주는 방법

공식

St=αXt+(1α)St1

  • StS_t : t시점 평활값

  • XtX_t : t시점 원 데이터

  • α\alpha : 평활상수 (0~1, 높을수록 최근 값 반영 비율 ↑)


중요 내용 정리

  • 시계열 데이터: 시간에 따라 수집된 자료

  • 변동요인: 추세, 계절, 순환, 불규칙

  • 변수 변환: 로그, Box-Cox, 영업일수 조정

  • 차분: 비정상성을 제거하는 기법

  • 평활화: 이동평균, 지수평활법

  • R과 RStudio로 시계열 분석 실습 가능


객관식 문제

1. 시계열 데이터의 변동 요인에 해당하지 않는 것은?
① 추세변동
② 계절변동
③ 표준편차
④ 순환변동

정답:
해설: 표준편차는 데이터의 변동성 측정 지표일 뿐, 변동 요인에 해당하지 않습니다.

2. 시계열 데이터의 불규칙 변동 요인을 설명한 것은?
① 계절적 요인
② 경기변동
③ 예측 불가능한 일시적 요동
④ 장기적 상승/하락

정답:
해설: 불규칙변동은 단기적인 특수 사건에 의한 변동을 의미합니다.

3. 이동평균법이나 지수평활법은 어떤 기법에 해당하는가?
① 차분
② 평활화
③ 변수변환
④ 분산분석

정답:
해설: 데이터의 불규칙성을 제거해 패턴을 찾는 평활화 기법입니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다