[예측방법론] 10강. 회귀모형 진단과 예측, 연립방정식모형

1. 회귀모형 진단 방법

회귀분석을 하고 나면, 그 결과가 믿을만한지 반드시 확인해야 합니다.
이걸 모형 진단이라고 부릅니다.

1-1. 잔차란 무엇인가?

잔차(residual)란 실제 값과 예측 값의 차이를 의미합니다.

rt=yty^tr_t = y_t – \hat{y}_t

여기서

yty_t

: 실제 값

y^t\hat{y}_t

: 회귀모형으로 계산한 예측 값

잔차가 랜덤하게 분포해야 좋은 모형이에요.
특정한 패턴이 있으면 잘못된 예측을 하고 있다는 뜻!

1-2. 자기상관이란?

시간 흐름에 따라 잔차들끼리 서로 영향을 주는 현상이에요.

  • 오늘의 잔차가 크면 내일 잔차도 클 가능성

  • 오늘의 잔차가 작으면 내일도 작을 가능성

이런 현상을 자기상관(autocorrelation) 이라고 해요.

회귀분석에서는 잔차들이 서로 독립적이어야 제대로 된 분석이 가능하기 때문에 이걸 반드시 검정합니다.

1-3. Durbin-Watson 검정

자기상관이 있는지 확인하는 방법 중 하나가 바로 Durbin-Watson 검정(DW 검정)입니다.

공식은 아래와 같아요.

DW=t=2n(etet1)2t=1net2DW = \frac{\sum_{t=2}^{n} (e_t – e_{t-1})^2}{\sum_{t=1}^{n} e_t^2}

여기서

ete_t

: 잔차

DW 값 해석

  • 2에 가까우면 → 자기상관 없음

  • 0~2 → 양의 자기상관 (좋지 않음)

  • 2~4 → 음의 자기상관 (역시 문제)

귀무가설

H0H_0

: 자기상관 없다

ρ=0\rho = 0

대립가설

H1H_1

: 자기상관 있다

ρ0\rho \neq 0

1-4. 자기상관 있을 때 조치법

만약 자기상관이 있다면, 회귀모형을 바로 써서는 안 돼요.
다음 방법 중 하나로 조정해야 합니다.

  • Cochrane-Orcutt 방법 : 1차 자기상관 제거

  • 일반화 최소제곱법(GLS) : 오차구조를 고려해 추정

1-5. 그 밖의 회귀진단 방법

✅ 등분산성 검정
→ 잔차의 크기가 예측값에 따라 달라지지 않는지 확인
잔차 그래프 그려서 점들이 고르게 퍼져 있어야 OK

✅ 정규성 검정
→ 잔차들이 정규분포를 따르는지 Q-Q plot으로 확인

✅ 이상치 확인
→ 영향력이 큰 점(레버리지)을 찾아내서 제거 또는 수정

✅ 다중공선성 확인
→ 독립변수 간 상관이 높으면 계수 불안정 → VIF로 확인 (10 이상 문제)

2. 회귀모형을 이용한 예측

회귀분석을 통해 얻은 모형으로 미래의 값을 예측할 수 있어요.

2-1. 점예측

예측하고 싶은 독립변수 값을 넣어서 예측값 계산

y^=β0^+β1^x\hat{y} = \hat{\beta_0} + \hat{\beta_1} x

2-2. 구간예측

예측값에는 오차가 있을 수 있으니, 신뢰구간을 같이 제시

95% 신뢰구간

y^±t0.025×SE(y^)\hat{y} \pm t_{0.025} \times SE(\hat{y})

→ 예측값이 이 범위 안에 있을 확률이 95%라는 의미

2-3. 시차변수가 있는 모형

예를 들어 오늘의 소비량을 어제의 GDP로 예측할 수도 있어요.
이때, 독립변수로 이전 시점 값(시차변수)을 쓰는 것.

3. 연립방정식모형

일반 회귀분석은 한 번에 종속변수 1개만 예측해요.
하지만 경제모형에서는 변수들이 서로 영향을 주고받는 경우가 많죠.

이럴 때 쓰는 게 연립방정식모형입니다.

3-1. 기본 개념

예를 들어

{Ct=α0+α1Yt+u1tYt=β0+β1Ct+β2It+u2t\begin{cases} C_t = \alpha_0 + \alpha_1 Y_t + u_{1t} \\ Y_t = \beta_0 + \beta_1 C_t + \beta_2 I_t + u_{2t} \end{cases}

  • C : 소비

  • Y : 생산

  • I : 투자

서로 영향을 주고받음.

3-2. 용어 설명

  • 내생변수(endogenous variable) : 모형 안에서 결정

  • 외생변수(exogenous variable) : 외부에서 주어짐

  • 오차항 : 예측하지 못한 요인

3-3. 연립방정식 모형 적합 방법

  • 2단계 최소제곱법(2SLS) : 첫 번째 단계에서 내생변수 추정값 계산 후 다시 회귀

  • 3단계 최소제곱법(3SLS) : 오차항의 상관까지 고려해서 적합

4. R 실습 코드

Durbin-Watson 검정

→ 2에 가까운지 확인

회귀 예측과 신뢰구간

→ 예측값과 95% 신뢰구간 함께 확인 가능


중요내용 정리

  • 잔차란? 실제값과 예측값 차이

  • 자기상관 있으면 DW 검정

  • DW 값 2면 정상, 0~2면 양의 자기상관

  • 자기상관 조정 : Cochrane-Orcutt, GLS

  • 회귀 예측 : 점예측, 신뢰구간

  • 연립방정식모형 : 종속변수 여러 개, 상호작용

  • R에서는 dwtest(), predict()로 분석 가능


객관식 문제

1. 잔차란 무엇인가?
① 실제 값과 평균의 차이
② 예측 값과 평균의 차이
③ 실제 값과 예측 값의 차이
④ 표준편차
정답:

2. Durbin-Watson 통계량 값이 2보다 작으면?
① 음의 자기상관
② 양의 자기상관
③ 독립
④ 이상치
정답:

3. 연립방정식모형의 특징은?
① 종속변수 1개
② 종속변수끼리 독립
③ 종속변수가 서로 영향을 주고받음
④ 이상치 탐지
정답:

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다