예측방법론 2강 — 시계열 데이터 분석 기초 정리
안녕하세요! 이번 포스팅에서는 시계열 데이터의 개념과 처리 방법을 초보자분들도 이해하기 쉽게 정리해보겠습니다.
특히 시간에 따라 변화하는 데이터를 분석하고 예측하는 데 필수적인 개념과 기법들을 정리했으니, 데이터마이닝, 통계분석, 경제예측을 공부하시는 분들께 추천드립니다.
1. 시계열 데이터란?
시간의 흐름에 따라 수집된 연속적인 데이터를 의미합니다.
예
-
국내총생산(GDP), 주가, 금리, 기온, 환율, 실업률
-
월별, 분기별, 연도별 수치
횡단면자료(Cross-sectional data): 같은 시점의 여러 개체 정보
패널데이터(Panel data): 여러 개체의 시계열 자료
2. 시계열 데이터의 변동 요인
시간에 따라 데이터 값이 변하는 이유는 여러 요인이 작용하기 때문입니다.
주요 변동 요인
① 추세변동(Trend) : 전반적인 상승/하락
② 계절변동(Seasonality) : 계절적 반복 패턴
③ 순환변동(Cycle) : 경기변동과 같은 긴 주기의 변동
④ 불규칙변동(Irregular) : 예측 불가능한 일시적 요동
3. 변수 변환
데이터의 분포나 변동성을 안정화하고, 정규성이나 선형성 가정을 만족시키기 변수 변환을 실시합니다.
① 로그 변환 (Log transformation)
정의
변수를 로그 값으로 변환
언제 쓰나?
-
값의 분포가 오른쪽으로 긴 꼬리(positive skewness)일 때
-
분산이 큰 값을 줄이고, 작은 값의 영향력 키울 때
Box-Cox 변환
정의
데이터를 최적의 λ (람다) 값으로 변환해 정규성 확보
단, λ=0일 때는 로그 변환과 같음.
언제 쓰나?
-
데이터 분포 왜도(skewness)가 클 때
-
정규성, 분산의 안정성 확보하고 싶을 때
또한 영업일수 조정이 필요한 경우도 있어, 월별 데이터의 일수 차이를 반영하기도 합니다.
4. 차분(Differencing)
추세나 계절성을 제거해 데이터를 정상화(stationary)하는 기법
방법
-
1차 차분: 현재값과 이전값의 차
-
계절 차분: 현재값과 1년 전 값의 차
5. 평활화(Smoothing)
데이터의 불규칙한 단기 변동을 완화해 추세나 패턴을 더 명확하게 보기 위해 사용하는 기법
시계열 데이터에서 노이즈 제거하고 전체 흐름을 보기 좋게 만들어주는 도구
① 이동평균법 (Moving Average)
여러 시점의 값을 평균 내서 그걸 하나의 값으로 바꾸는 방법
종류
-
-
단순 이동평균 (Simple Moving Average, SMA)
일정 기간 데이터의 산술 평균n: 평균을 낼 기간(평활 이동평균 항수)
-
가중 이동평균 (Weighted Moving Average, WMA)
최근 값에 더 높은 가중치를 주는 평균
-
② 지수평활법 (Exponential Smoothing)
과거 자료에 지수적으로 가중치를 두어 최근 데이터에 더 많은 비중을 주는 방법
공식
-
: t시점 평활값
-
: t시점 원 데이터
-
: 평활상수 (0~1, 높을수록 최근 값 반영 비율 ↑)
중요 내용 정리
-
시계열 데이터: 시간에 따라 수집된 자료
-
변동요인: 추세, 계절, 순환, 불규칙
-
변수 변환: 로그, Box-Cox, 영업일수 조정
-
차분: 비정상성을 제거하는 기법
-
평활화: 이동평균, 지수평활법
-
R과 RStudio로 시계열 분석 실습 가능
객관식 문제
1. 시계열 데이터의 변동 요인에 해당하지 않는 것은?
① 추세변동
② 계절변동
③ 표준편차
④ 순환변동
정답: ③
해설: 표준편차는 데이터의 변동성 측정 지표일 뿐, 변동 요인에 해당하지 않습니다.
2. 시계열 데이터의 불규칙 변동 요인을 설명한 것은?
① 계절적 요인
② 경기변동
③ 예측 불가능한 일시적 요동
④ 장기적 상승/하락
정답: ③
해설: 불규칙변동은 단기적인 특수 사건에 의한 변동을 의미합니다.
3. 이동평균법이나 지수평활법은 어떤 기법에 해당하는가?
① 차분
② 평활화
③ 변수변환
④ 분산분석
정답: ②
해설: 데이터의 불규칙성을 제거해 패턴을 찾는 평활화 기법입니다.