[회귀분석] 7강. 회귀분석 진단법과 특이값, 영향관측값 완전 정리

회귀진단이란?

회귀분석에서는 모형과 가정이 잘 설정되었는지 확인하는 과정이 필요합니다.
이걸 회귀진단(Regression Diagnostics)이라고 합니다.

  • 모형진단 : 회귀모형이나 가정에 문제점이 있는지 확인

  • 자료진단 : 개별 데이터가 회귀모형에 어떤 영향을 주는지 점검

총괄분석을 하고 끝내는 게 아니라, 반드시 회귀진단을 통해
모형의 적합성을 검토해야 신뢰성 있는 결과를 얻을 수 있습니다.

구분 총괄분석 회귀진단
목적 회귀모형 전체 적합성 평가 회귀가정 충족 여부 및 데이터 문제 확인
주요 내용 R², F-검정 선형성, 정규성, 등분산성, 독립성, 이상치
주요 도구 ANOVA Table, R², F-test 잔차도, QQ Plot, Cook’s Distance 등
분석 단계 회귀분석 직후 회귀분석 결과 확인 후 반드시 수행

잔차분석 (Residual Analysis)

잔차란
실제값과 회귀직선으로 예측한 값의 차이

잔차의 종류

  • 표준화 잔차 : 단위 없는 표준화된 잔차, 보통 절대값이 2 이상이면 이상치 의심

  • 스튜던트화 잔차 : 표준화 잔차에서 특정 관측값의 영향력을 제거한 값 → 더 민감

공식

표준화 잔차

 

ri=eiσ^1hiir_i = \frac{e_i}{\hat{\sigma} \sqrt{1 – h_{ii}}}

스튜던트화 잔차

 

ti=eiσ^(i)1hiit_i = \frac{e_i}{\hat{\sigma}_{(i)} \sqrt{1 – h_{ii}}}

eie_i

: 잔차

hiih_{ii}

: 해트행렬의 대각원소, 레버리지 값 (해당 관측치의 영향력)

σ^\hat{\sigma}

: 회귀모형의 오차의 표준편차

σ^(i)\hat{\sigma}_{(i)}

: 해당 관측치 i를 제외하고 계산한 표준편차

 

특이값(Outlier)

대부분 데이터는 회귀모형을 잘 따르지만
특정 관측값이 이상하게 벗어난 경우 이를 특이값(outlier)이라고 합니다.

검출 방법

스튜던트화 잔차가 절대값 기준 3 이상
또는 Bonferroni t-검정으로 확인

R 코드

영향력 있는 관측값

특정 관측값이 회귀직선의 기울기나 절편에 큰 영향을 주는 경우
이를 영향력 있는 관측값이라고 합니다.

Cook’s Distance

모형에 미치는 영향력을 수치화한 값

 

Di=(Y^jY^j(i))2pMSED_i = \frac{\sum (\hat{Y}_j – \hat{Y}_{j(i)})^2}{p \cdot MSE}

  • p : 설명변수 수 + 1
  • MSE : 평균 제곱 오차

D값이 1 이상이면 영향력 큰 관측값

QQ Plot 보는 법

  • x축: 이론적인 정규분포의 분위수

  • y축: 실제 데이터의 분위수

이걸 점으로 찍어보고
45도 직선(대각선)을 기준으로 점들이 잘 붙어 있으면 정규성 OK
점들이 곡선으로 벗어나거나 한쪽으로 몰려 있으면 정규성 위반 가능성!

R 코드 실습

잔차분석

ls.diag(soil_lm)

soil_lm이라는 회귀모델의 잔차 진단값(residual diagnostics)을 계산해주는 함수

여기서 ls = Least Squares (최소제곱법)

그러니까 ls.diag()
최소제곱법 기반 회귀분석 진단 (diagnostics) 값을 계산해주는 함수라는 뜻.

최소제곱법(Ordinary Least Squares, OLS)으로 만들어진 회귀모델의

  • 레버리지 (Hat value)

  • 표준화 잔차

  • 스튜던트화 잔차

  • 쿡스 거리
    같은 진단 값들을 한 번에 뽑아주는 함수

 

Cook’s Distance 계산

1
cooks.distance(forbes_lm)
cs

영향관측값 확인

1
identify(fitted(forbes_lm), resid(forbes_lm))
cs
  • 그래프에서 점 클릭 → 해당 관측값 번호 반환

중요 내용 요약

개념 설명
회귀진단 모형과 데이터의 타당성 확인
잔차 실제값-예측값 차이
특이값 회귀모형에서 벗어난 값
스튜던트화 잔차 영향력 보정 잔차
Cook’s D 관측값 영향력 수치
outlierTest 특이값 검정 함수

객관식 문제 (정답 및 해설)

문제 1
다음 중 회귀모형 진단 방법으로 옳지 않은 것은?

① 잔차분석
② outlierTest
③ Bonferroni 검정
④ Pearson 상관계수

정답 : ④
해설 : Pearson 상관계수는 변수 간 상관관계 측정용

문제 2
스튜던트화 잔차의 절대값이 몇 이상일 때 특이값으로 판단할 수 있는가?

① 1
② 2
③ 3
④ 5

정답 : ③
해설 : 스튜던트화 잔차 절대값 3 이상 → 특이값

문제 3
Cook’s D 값이 몇 이상이면 영향력 있는 관측값이라 판단할 수 있는가?

① 0.1
② 0.5
③ 1
④ 2

정답 : ③
해설 : D ≥ 1 → 영향력 있는 관측값

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다