1. 자기상관의 개념
자기상관(autocorrelation)이란, 동일한 시계열 데이터 내에서 시간 차이를 두고 관측한 값들 간의 상관관계를 의미합니다. 쉽게 말해, 오늘의 값과 내일의 값, 또는 이번 달의 값과 다음 달의 값이 얼마나 비슷하게 움직이는지를 나타내는 지표입니다.
-
양의 자기상관 : 이전 값이 크면 이후 값도 클 가능성이 높음
-
음의 자기상관 : 이전 값이 크면 이후 값이 작을 가능성이 높음
-
자기상관 없음 : 시간 차에 관계없이 독립적
2. 자기공분산 함수와 자기상관 함수
자기공분산 함수(Covariance Function)
시계열
에서 시차
만큼 떨어진 값의 공분산을 다음과 같이 정의합니다.
자기상관 함수(Autocorrelation Function, ACF)
자기공분산을 분산으로 나누어 표준화한 것이 자기상관입니다.
여기서
는 시계열의 분산.
3. 표본 자기상관계수 계산
실제 데이터에서는 표본으로 자기상관을 계산합니다.
여기서
: 총 관측값 수
: 평균값
그리고,
는 근사적으로
정규분포를 따릅니다.
4. 부분자기상관계수 (PACF)
부분자기상관은 두 시점 사이의 상관관계에서 중간값들의 영향을 제거한 순수 상관관계를 의미합니다.
예를 들어,
와
의 상관을 볼 때,
의 영향을 제거하고 순수하게 두 값의 관계만 보는 것.
계산 방식도 비슷하게, 중간값들을 회귀모형으로 제거하고 잔차 간의 상관을 계산합니다.
5. 상관도표와 Ljung-Box 검정
상관도표(ACF Plot)와 부분상관도표(PACF Plot)를 통해 시계열의 자기상관 구조를 확인합니다.
그리고, Ljung-Box 검정은 모든 시차의 자기상관이 0이라는 귀무가설을 검정합니다.
귀무가설:
검정통계량:
값이 임계값보다 크면, 시계열에 자기상관이 존재한다고 판단합니다.
6. 안정 시계열과 불안정 시계열
-
안정 시계열(Stationary) : 평균, 분산, 자기공분산이 시간에 따라 변하지 않는 시계열
-
불안정 시계열(Non-stationary) : 평균, 분산, 자기공분산이 시간에 따라 변하는 시계열
분석 시 반드시 안정성 여부를 확인 후, 불안정 시에는 차분 등을 통해 안정화해야 합니다.
7. R 실습 코드
ACF와 PACF 그래프
1
2
3
|
data <- AirPassengers
acf(data)
pacf(data)
|
cs |
코드 설명
-
acf()
: 자기상관 함수 그래프 출력 -
pacf()
: 부분자기상관 함수 그래프 출력 -
AirPassengers
: 월별 항공 승객 데이터
그래프를 통해 어떤 시차에서 자기상관이 강하게 나타나는지 확인할 수 있습니다.
중요 내용 정리
-
자기상관 : 동일 시계열 내 시간 차 두고 관측값 간 상관
-
자기공분산 함수 : 시차별 공분산
-
자기상관 함수(ACF) : 공분산을 분산으로 나눈 값
-
부분자기상관(PACF) : 중간값 제거한 순수 상관
-
상관도표 : ACF와 PACF 그래프로 확인
-
Ljung-Box 검정 : 전체 시차의 자기상관 존재 여부 검정
-
안정 시계열 : 평균, 분산, 공분산이 시간에 따라 일정
객관식 문제
1. 자기상관 함수(ACF) 값의 범위로 올바른 것은?
① 0 ~ 1
② -1 ~ 1
③ 0 ~ 100
④ -100 ~ 100
정답: ②
해설: ACF 값은 -1에서 1 사이 값을 가집니다.
2. Ljung-Box 검정의 귀무가설은?
① 데이터의 평균이 0이다
② 모든 시차의 자기상관이 0이다
③ 데이터가 정규분포를 따른다
④ 데이터에 이상치가 없다
정답: ②
해설: Ljung-Box 검정은 모든 시차의 자기상관이 0인지 확인하는 검정입니다.
3. 안정 시계열의 특징으로 옳지 않은 것은?
① 평균이 일정하다
② 분산이 일정하다
③ 자기공분산이 시차에만 의존
④ 시간에 따라 분산이 변한다
정답: ④
해설: 안정 시계열은 시간에 따라 평균, 분산이 변하지 않습니다.