[회귀모형] 9강. 일반화선형모형(GLM) 쉽게 정리

일반화선형모형(GLM)란?

기존 선형회귀모형의 한계를 극복하기 위해,
반응변수의 분포가 정규분포 외에도 이항분포, 포아송분포, 감마분포 등을 따르는 상황에서 쓸 수 있도록 확장한 회귀모형입니다.

Nelder & Wedderburn (1972) 이론에 기반.

GLM 구성요소 3가지

1️⃣ 반응변수의 분포

  • 정규, 이항, 포아송, 감마 등 지수족 분포

2️⃣ 선형예측자 (η)

  • 설명변수의 선형결합

 

η=β0+β1x1++βpxp\eta = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p

3️⃣ 연결함수 (g)

  • 반응변수의 평균과 선형예측자를 연결

  • 항등함수:

    g(μ)=μg(\mu) = \mu

  • 로짓함수:

    g(π)=log(π1π)g(\pi) = \log\left(\frac{\pi}{1-\pi}\right)

  • 로그함수:

    g(μ)=logμg(\mu) = \log \mu

대표적인 GLM 종류와 분포

분포 적용 사례 연결함수
정규분포 일반연속형 항등
이항분포 성공/실패 로짓
포아송분포 사건발생 횟수 로그

로지스틱 회귀모형(Logistic Regression)

반응변수가 0 또는 1인 이분형 자료에서 사용

 

log(π1π)=β0+β1x1+β2x2\log \left( \frac{\pi}{1-\pi} \right) = \beta_0 + \beta_1 x_1 + \beta_2 x_2

  • π\pi

    : 사건 발생 확률

 

R의 glm() 함수 사용법

1
glm(occur ~ p_size_km + con_metric, family=binomial(link=”logit”), data=flying)
cs
  • family=binomial : 이항분포

  • link="logit" : 로짓함수 사용

  • occur : 반응변수 (0/1)

 

모형 유의성 검정 (이탈도 차이 이용)

가능도비 검정

 

LR=이탈도 차이χ2(df)LR = \text{이탈도 차이} \sim \chi^2(\text{df})

df : 두 모형 간 자유도 차이
p-value < 0.05 → 모형 유의

모형선택 : stepAIC()

1
2
library(MASS)
stepAIC(glm모형, direction=”both”)
cs
  • AIC 값이 가장 작은 모형 선택

 

프로빗 회귀모형(Probit Regression)

로지스틱 회귀와 비슷하지만 연결함수로 표준정규분포의 누적분포함수의 역함수 사용

 

Φ1(π)=β0+β1x1+\Phi^{-1}(\pi) = \beta_0 + \beta_1 x_1 + \cdots

구분 로지스틱 회귀 프로빗 회귀
연결함수 로짓 함수(logit) : logp1p\log \frac{p}{1-p} 프로빗 함수(probit) : Φ1(p)\Phi^{-1}(p)
분포 로지스틱 분포 표준정규분포
확률계산 오즈비 기반 Z값 기반
사용 상황 일반적인 이진반응 모형 잠재변수가 정규분포 따른다고 가정할 때
결과 차이 거의 비슷 거의 비슷

중요 내용 정리

개념 설명
GLM 반응변수 분포가 정규분포 외에도 가능
선형예측자 설명변수의 선형결합
연결함수 평균과 선형결합을 함수로 연결
로지스틱 회귀 이분형 자료, 로짓함수
프로빗 회귀 표준정규분포 누적분포함수 이용
stepAIC() AIC 최소 모형 선택

객관식 문제 (정답 및 해설)

문제 1
일반화선형모형(GLM)의 구성요소가 아닌 것은?

① 반응변수의 분포
② 선형예측자
③ 잔차제곱합
④ 연결함수

정답 : ③
해설 : 잔차제곱합은 OLS(선형회귀) 개념

문제 2
로지스틱 회귀모형의 연결함수로 사용되는 것은?

① 항등함수
② 로그함수
③ 로짓함수
④ 제곱함수

정답 : ③
해설 : 이항자료에서는 logit(로짓) 함수 사용

문제 3
GLM에서 반응변수의 분포가 이항분포일 때 가능한 연결함수는?

① log(μ)
② logit(π)
③ identity(μ)
④ exp(μ)

정답 : ②
해설 : 이항분포는 logit 함수가 정준연결

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다