[회귀모형] 12강. 로그선형모형과 과대산포, 준가능도 쉽게 정리

로그선형모형(Log-linear Model)이란?

반응변수가 개수(count) 자료일 때 주로 사용하는 일반화선형모형(GLM)의 일종입니다.
포아송 분포를 가정하고, 로그연결함수(log link function)를 사용하여 모형을 구성합니다.

GLM 구성요소

  • 반응변수 :

    YPoisson(μ)Y \sim \text{Poisson}(\mu)

  • 선형예측자 :

    η=β0+β1x1++βpxp

  • 연결함수 :

    η=logμ \eta = \log \mu

로그선형모형의 해석

승법모형 (Multiplicative Model)

μ=exp(β0+β1x1+)\mu = \exp(\beta_0 + \beta_1 x_1 + \cdots)

eβie^{\beta_i}

: 다른 변수 고정 시,

xix_i

1단위 증가 시 평균값의 비율 변화

 

예제: 자동차 사고건수 데이터

R의 MASS 패키지 Traffic 데이터 활용

  • 반응변수: 사고건수

  • 설명변수: 속도제한 여부, 조사일, 연도

R 코드

1
glm(Y ~ limit + day + year, family=poisson, data=Traffic)
cs
  • 가능도비 검정으로 모형 유의성 확인

  • 잔차이탈도/자유도 비율 확인해 적합성 검토

 

율(rate) 자료의 로그선형모형

  • 발생률이 작은 사건 (예: 희귀병, 교통사고, 기계 고장 등)

  • 사건이 발생한 횟수(𝑌)

  • 전체 관측량(𝑁) 으로 나눈 율(rate = Y/N) 형태로 분석하는 경우

 

여기선 𝑌가 포아송 분포를 따른다고 가정 (사건 횟수니까)

구성요소

YPoisson(Nλ)

여기서 𝑁𝜆 : 기대되는 사건의 평균 발생횟수
(𝑁 = 노출량, 관측량, 또는 시간)

Y \sim \text{Poisson}(N \lambda)

logλ=β0+β1x1+

설명변수로 발생률 λ 를 설명
(포아송 분포의 평균은 0 이상이므로 로그로 양수 제한!)

offset 항 :

logN

관측량(노출량)의 로그값, 모형 안에 계수를 추정하지 않고 고정값으로 포함

 

R 코드

1
glm(cases ~ age + region + offset(log(total)), family=poisson, data=melanoma)
cs

 

과대산포(Overdispersion)란?

포아송 분포의 분산보다 자료의 분산이 더 큰 경우

  • 포아송:

  • Var(Y)=μ\text{Var}(Y) = \mu
  • 실제자료:

  • Var(Y)=ϕμ, ϕ>1\text{Var}(Y) = \phi \mu, \ \phi > 1

→ 표준오차 과소추정, 유의성 과대판단 위험

과대산포 해결: 준가능도(Quasi-likelihood)

포아송 분포 가정 대신, 평균과 분산 함수만 가정

분산 함수:

V(μ)=μV(\mu) = \mu

산포모수 ϕ (phi) 를 곱해서 분산을 조절

Var(Y)=ϕμ

    • ϕ > 1 → 과대산포

    • ϕ < 1 → 과소산포

    • ϕ = 1 → 포아송과 같음

      \phi

산포모수 추정

ϕ^=(yiμ^i)2/V(μ^i)np1\hat{\phi} = \frac{\sum (y_i – \hat{\mu}_i)^2 / V(\hat{\mu}_i)}{n-p-1}

 

ϕ^=Residual DevianceResidual Degrees of Freedom

 

잔차 이탈도 (Residual Deviance) 를 잔차 자유도 (Residual df) 로 나누면 됨.

 

중요 내용 정리

개념 설명
로그선형모형 개수자료, 포아송분포 + 로그링크
승법모형 설명변수 영향 비율로 해석
과대산포 자료의 분산 > 포아송 분산
준가능도 분산함수만 가정, 산포모수 추정
offset 율 자료에서 전체관측도수 보정

객관식 문제 (정답 및 해설)

문제 1
로그선형모형에서 연결함수로 사용되는 함수는?

① 항등함수
② 로그함수
③ 로짓함수
④ 제곱함수

정답 : ②

문제 2
포아송 모형의 과대산포 문제를 해결하기 위해 사용하는 방법은?

① MLE
② 준가능도(quasi-likelihood)
③ ANOVA
④ 정규분포 가정

정답 : ②

문제 3
율 자료에서 전체관측도수를 반영하기 위해 사용하는 offset 항은?

① log(λ)
② log(N)
③ N
④ log(μ)

정답 : ②

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다