회귀진단이란?
회귀분석에서는 모형과 가정이 잘 설정되었는지 확인하는 과정이 필요합니다.
이걸 회귀진단(Regression Diagnostics)이라고 합니다.
-
모형진단 : 회귀모형이나 가정에 문제점이 있는지 확인
-
자료진단 : 개별 데이터가 회귀모형에 어떤 영향을 주는지 점검
총괄분석을 하고 끝내는 게 아니라, 반드시 회귀진단을 통해
모형의 적합성을 검토해야 신뢰성 있는 결과를 얻을 수 있습니다.
구분 | 총괄분석 | 회귀진단 |
---|---|---|
목적 | 회귀모형 전체 적합성 평가 | 회귀가정 충족 여부 및 데이터 문제 확인 |
주요 내용 | R², F-검정 | 선형성, 정규성, 등분산성, 독립성, 이상치 |
주요 도구 | ANOVA Table, R², F-test | 잔차도, QQ Plot, Cook’s Distance 등 |
분석 단계 | 회귀분석 직후 | 회귀분석 결과 확인 후 반드시 수행 |
잔차분석 (Residual Analysis)
잔차란
실제값과 회귀직선으로 예측한 값의 차이
잔차의 종류
-
표준화 잔차 : 단위 없는 표준화된 잔차, 보통 절대값이 2 이상이면 이상치 의심
-
스튜던트화 잔차 : 표준화 잔차에서 특정 관측값의 영향력을 제거한 값 → 더 민감
공식
표준화 잔차
스튜던트화 잔차
: 잔차
: 해트행렬의 대각원소, 레버리지 값 (해당 관측치의 영향력)
: 회귀모형의 오차의 표준편차
: 해당 관측치 i를 제외하고 계산한 표준편차
특이값(Outlier)
대부분 데이터는 회귀모형을 잘 따르지만
특정 관측값이 이상하게 벗어난 경우 이를 특이값(outlier)이라고 합니다.
검출 방법
스튜던트화 잔차가 절대값 기준 3 이상
또는 Bonferroni t-검정으로 확인
R 코드
영향력 있는 관측값
특정 관측값이 회귀직선의 기울기나 절편에 큰 영향을 주는 경우
이를 영향력 있는 관측값이라고 합니다.
Cook’s Distance
모형에 미치는 영향력을 수치화한 값
- p : 설명변수 수 + 1
- MSE : 평균 제곱 오차
D값이 1 이상이면 영향력 큰 관측값
QQ Plot 보는 법
-
x축: 이론적인 정규분포의 분위수
-
y축: 실제 데이터의 분위수
이걸 점으로 찍어보고
45도 직선(대각선)을 기준으로 점들이 잘 붙어 있으면 정규성 OK
점들이 곡선으로 벗어나거나 한쪽으로 몰려 있으면 정규성 위반 가능성!
R 코드 실습
잔차분석
ls.diag(soil_lm)
soil_lm이라는 회귀모델의 잔차 진단값(residual diagnostics)을 계산해주는 함수
여기서 ls = Least Squares (최소제곱법)
그러니까 ls.diag()
는
최소제곱법 기반 회귀분석 진단 (diagnostics) 값을 계산해주는 함수라는 뜻.
최소제곱법(Ordinary Least Squares, OLS)으로 만들어진 회귀모델의
-
레버리지 (Hat value)
-
표준화 잔차
-
스튜던트화 잔차
-
쿡스 거리
같은 진단 값들을 한 번에 뽑아주는 함수
Cook’s Distance 계산
영향관측값 확인
-
그래프에서 점 클릭 → 해당 관측값 번호 반환
중요 내용 요약
개념 | 설명 |
---|---|
회귀진단 | 모형과 데이터의 타당성 확인 |
잔차 | 실제값-예측값 차이 |
특이값 | 회귀모형에서 벗어난 값 |
스튜던트화 잔차 | 영향력 보정 잔차 |
Cook’s D | 관측값 영향력 수치 |
outlierTest | 특이값 검정 함수 |
객관식 문제 (정답 및 해설)
문제 1
다음 중 회귀모형 진단 방법으로 옳지 않은 것은?
① 잔차분석
② outlierTest
③ Bonferroni 검정
④ Pearson 상관계수
정답 : ④
해설 : Pearson 상관계수는 변수 간 상관관계 측정용
문제 2
스튜던트화 잔차의 절대값이 몇 이상일 때 특이값으로 판단할 수 있는가?
① 1
② 2
③ 3
④ 5
정답 : ③
해설 : 스튜던트화 잔차 절대값 3 이상 → 특이값
문제 3
Cook’s D 값이 몇 이상이면 영향력 있는 관측값이라 판단할 수 있는가?
① 0.1
② 0.5
③ 1
④ 2
정답 : ③
해설 : D ≥ 1 → 영향력 있는 관측값