1. 회귀모형 진단 방법
회귀분석을 하고 나면, 그 결과가 믿을만한지 반드시 확인해야 합니다.
이걸 모형 진단이라고 부릅니다.
1-1. 잔차란 무엇인가?
잔차(residual)란 실제 값과 예측 값의 차이를 의미합니다.
여기서
: 실제 값
: 회귀모형으로 계산한 예측 값
잔차가 랜덤하게 분포해야 좋은 모형이에요.
특정한 패턴이 있으면 잘못된 예측을 하고 있다는 뜻!
1-2. 자기상관이란?
시간 흐름에 따라 잔차들끼리 서로 영향을 주는 현상이에요.
-
오늘의 잔차가 크면 내일 잔차도 클 가능성
-
오늘의 잔차가 작으면 내일도 작을 가능성
이런 현상을 자기상관(autocorrelation) 이라고 해요.
회귀분석에서는 잔차들이 서로 독립적이어야 제대로 된 분석이 가능하기 때문에 이걸 반드시 검정합니다.
1-3. Durbin-Watson 검정
자기상관이 있는지 확인하는 방법 중 하나가 바로 Durbin-Watson 검정(DW 검정)입니다.
공식은 아래와 같아요.
여기서
: 잔차
DW 값 해석
-
2에 가까우면 → 자기상관 없음
-
0~2 → 양의 자기상관 (좋지 않음)
-
2~4 → 음의 자기상관 (역시 문제)
귀무가설
: 자기상관 없다
대립가설
: 자기상관 있다
1-4. 자기상관 있을 때 조치법
만약 자기상관이 있다면, 회귀모형을 바로 써서는 안 돼요.
다음 방법 중 하나로 조정해야 합니다.
-
Cochrane-Orcutt 방법 : 1차 자기상관 제거
-
일반화 최소제곱법(GLS) : 오차구조를 고려해 추정
1-5. 그 밖의 회귀진단 방법
✅ 등분산성 검정
→ 잔차의 크기가 예측값에 따라 달라지지 않는지 확인
잔차 그래프 그려서 점들이 고르게 퍼져 있어야 OK
✅ 정규성 검정
→ 잔차들이 정규분포를 따르는지 Q-Q plot으로 확인
✅ 이상치 확인
→ 영향력이 큰 점(레버리지)을 찾아내서 제거 또는 수정
✅ 다중공선성 확인
→ 독립변수 간 상관이 높으면 계수 불안정 → VIF로 확인 (10 이상 문제)
2. 회귀모형을 이용한 예측
회귀분석을 통해 얻은 모형으로 미래의 값을 예측할 수 있어요.
2-1. 점예측
예측하고 싶은 독립변수 값을 넣어서 예측값 계산
2-2. 구간예측
예측값에는 오차가 있을 수 있으니, 신뢰구간을 같이 제시
95% 신뢰구간
→ 예측값이 이 범위 안에 있을 확률이 95%라는 의미
2-3. 시차변수가 있는 모형
예를 들어 오늘의 소비량을 어제의 GDP로 예측할 수도 있어요.
이때, 독립변수로 이전 시점 값(시차변수)을 쓰는 것.
3. 연립방정식모형
일반 회귀분석은 한 번에 종속변수 1개만 예측해요.
하지만 경제모형에서는 변수들이 서로 영향을 주고받는 경우가 많죠.
이럴 때 쓰는 게 연립방정식모형입니다.
3-1. 기본 개념
예를 들어
-
C : 소비
-
Y : 생산
-
I : 투자
서로 영향을 주고받음.
3-2. 용어 설명
-
내생변수(endogenous variable) : 모형 안에서 결정
-
외생변수(exogenous variable) : 외부에서 주어짐
-
오차항 : 예측하지 못한 요인
3-3. 연립방정식 모형 적합 방법
-
2단계 최소제곱법(2SLS) : 첫 번째 단계에서 내생변수 추정값 계산 후 다시 회귀
-
3단계 최소제곱법(3SLS) : 오차항의 상관까지 고려해서 적합
4. R 실습 코드
Durbin-Watson 검정
→ 2에 가까운지 확인
회귀 예측과 신뢰구간
→ 예측값과 95% 신뢰구간 함께 확인 가능
중요내용 정리
-
잔차란? 실제값과 예측값 차이
-
자기상관 있으면 DW 검정
-
DW 값 2면 정상, 0~2면 양의 자기상관
-
자기상관 조정 : Cochrane-Orcutt, GLS
-
회귀 예측 : 점예측, 신뢰구간
-
연립방정식모형 : 종속변수 여러 개, 상호작용
-
R에서는
dwtest()
,predict()
로 분석 가능
객관식 문제
1. 잔차란 무엇인가?
① 실제 값과 평균의 차이
② 예측 값과 평균의 차이
③ 실제 값과 예측 값의 차이
④ 표준편차
정답: ③
2. Durbin-Watson 통계량 값이 2보다 작으면?
① 음의 자기상관
② 양의 자기상관
③ 독립
④ 이상치
정답: ②
3. 연립방정식모형의 특징은?
① 종속변수 1개
② 종속변수끼리 독립
③ 종속변수가 서로 영향을 주고받음
④ 이상치 탐지
정답: ③