[회귀모형] 10강. 일반화선형모형(GLM) 해석과 진단법 쉽게 정리

로지스틱 회귀모형 복습

반응변수가 성공/실패(1/0) 이항형 자료일 때 사용하는 GLM의 대표적인 모형이 로지스틱 회귀입니다.

 

log(π(x)1π(x))=β0+β1x\log \left( \frac{\pi(x)}{1-\pi(x)} \right) = \beta_0 + \beta_1 x

 

여기서

  • π(x)

    : 성공확률

  • β1\beta_1

    : X가 1 증가할 때 로그-승산의 변화량

  • eβ1e^{\beta_1}

    : 승산비(odds ratio)

로지스틱 함수와 해석

π(x)=eβ0+β1x1+eβ0+β1x\pi(x) = \frac{e^{\beta_0 + \beta_1 x}}{1+e^{\beta_0 + \beta_1 x}}

  • S자형 곡선

  • β1>0\beta_1>0

    이면 증가,

    β1<0\beta_1<0

    이면 감소

평균주변효과 (AME)

 

dπ(x)dx=β1π(x)(1π(x))\frac{d \pi(x)}{dx} = \beta_1 \pi(x)(1-\pi(x))

 

  • 비선형 회귀모형(로지스틱/프로빗 회귀 등)에서설명변수 X가 1단위 변할 때, 종속변수의 기대확률 P의 변화량의 평균값을 의미.
  • 여기서

    • π(x)\pi(x)

       :

      X=xX=x

      일 때 사건이 발생할 확률

    • β1\beta_1

      : 설명변수

      xx

      의 계수

    • dπ(x)dx\frac{d\pi(x)}{dx}

      :

      xx

      가 1 단위 증가할 때, 확률의 변화율 (marginal effect)

승산비 해석

 

odds ratio (OR)=eβ1\text{odds ratio (OR)} = e^{\beta_1}

X가 1 증가할 때 성공확률의 승산비 배수 증가

예:

e0.022=1.022e^{0.022} = 1.022

→ 1km 증가시 성공확률의 승산이 1.022배

프로빗 회귀모형

로지스틱 대신 표준정규분포 누적분포함수로 연결

 

Φ1(π)=β0+β1x\Phi^{-1}(\pi) = \beta_0 + \beta_1 x

  • Φ()\Phi()

    : 표준정규 누적분포

  • X 증가 시 확률 증가 패턴은 유사

최대가능도추정 (MLE)

GLM에서는 가능도 함수를 최대로 하는 모수를 찾는 방법 사용

수식 정리

  • 점수함수:

    u(β)=logLβ

  • 관측정보행렬:

    I0(β)=2logLβ2I_0(\beta) = -\frac{\partial^2 \log L}{\partial \beta^2}점수함수를 다시 모수에 대해 2번 미분한 것의 음수

수치적 방법

MLE에서 점수함수

u(β)=0u(\beta) = 0

을 풀어야 하는데
대부분의 GLM에서는 이 방정식이 해석적으로 풀 수가 없습니다.

 

그래서 수치적으로 반복해서 근사해가는 방법이 필요합니다.

  • Newton-Raphson : 기울기랑 꺾임을 직접 계산해서 이동

  • Fisher Scoring : 평균 꺾임값으로 이동

  • 반복재가중최소제곱법 (IRLS) : Fisher Scoring을 선형회귀 문제로 바꿔서 가중치 주며 반복

 

모형 진단 : 이탈도 (Deviance)

현재모형과 포화모형의 로그가능도 차이

 

D=2[logL(μ^)logL(y)]D = -2 \left[ \log L(\hat{\mu}) – \log L(y) \right]

  • 작을수록 적합도 높음

  • 이탈도 차이로 두 모형 비교 가능

검정통계량

 

D0D1χ2(df)D_0 – D_1 \sim \chi^2(df)

 

모형 진단 : 잔차 (Residual)

종류

  • Raw Residual : 기본적인 차이

  • Pearson Residual : 표준화된 잔차

  • Deviance Residual : 가능도 기반, 적합도 확인에 많이 씀

잔차 산점도 & Q-Q plot 확인

→ 이상치, 정규성, 등분산성 진단 가능

잔차 산점도 (Residual Plot)

  • 예측값과 잔차의 관계를 보는 그래프

  • 모형이 데이터 패턴을 잘 잡았는지 확인

 

  • 패턴 없이 아무렇게나 흩어져 있으면 좋음

  • 특정 모양(곡선, 점점 커짐 등)이 보이면 모형이 그 부분을 제대로 설명 못한다는 뜻

 

Q-Q plot (Quantile-Quantile Plot)

  • 잔차가 정규분포를 따르는지 확인하는 그래프
  • 가로축 : 이론적인 정규분포 분위수
  • 세로축 : 실제 잔차의 분위수
  • 점들이 대각선에 잘 맞으면 정규성 만족
  • 점들이 선에서 많이 벗어나면 정규성 위배 (잔차가 비정규분포)

 

중요 내용 정리

개념 설명
GLM 반응변수 분포를 정규 외 이항, 포아송으로 확장
로지스틱 회귀 성공/실패 확률 예측
승산비 X 1증가시 odds 배수
프로빗 회귀 정규 누적분포함수 연결
MLE 가능도 최댓값 추정
이탈도 모형적합도 지표
잔차 이상치 및 가정검토 지표

객관식 문제 (정답 및 해설)

문제 1
로지스틱 회귀모형의 연결함수는?

① 항등함수
② 로그함수
③ 로짓함수
④ 정규분포함수

정답 : ③

문제 2
GLM에서 이탈도(Deviance)의 의미는?

① 평균 제곱 오차
② 모형의 복잡성
③ 현재모형과 포화모형의 로그가능도 차이
④ 잔차의 제곱합

정답 : ③

문제 3
다음 중 GLM의 MLE 추정 방법이 아닌 것은?

① IRLS
② Fisher Scoring
③ Newton-Raphson
④ 잔차제곱합 최소화

정답 : ④

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다