로그선형모형(Log-linear Model)이란?
반응변수가 개수(count) 자료일 때 주로 사용하는 일반화선형모형(GLM)의 일종입니다.
포아송 분포를 가정하고, 로그연결함수(log link function)를 사용하여 모형을 구성합니다.
GLM 구성요소
-
반응변수 :
-
선형예측자 :
-
연결함수 :
로그선형모형의 해석
승법모형 (Multiplicative Model)
: 다른 변수 고정 시,
1단위 증가 시 평균값의 비율 변화
예제: 자동차 사고건수 데이터
R의 MASS 패키지 Traffic
데이터 활용
-
반응변수: 사고건수
-
설명변수: 속도제한 여부, 조사일, 연도
R 코드
-
가능도비 검정으로 모형 유의성 확인
-
잔차이탈도/자유도 비율 확인해 적합성 검토
율(rate) 자료의 로그선형모형
-
발생률이 작은 사건 (예: 희귀병, 교통사고, 기계 고장 등)
-
사건이 발생한 횟수(𝑌) 를
-
전체 관측량(𝑁) 으로 나눈 율(rate = Y/N) 형태로 분석하는 경우
여기선 𝑌가 포아송 분포를 따른다고 가정 (사건 횟수니까)
구성요소
여기서 𝑁𝜆 : 기대되는 사건의 평균 발생횟수
(𝑁 = 노출량, 관측량, 또는 시간)
설명변수로 발생률 λ 를 설명
(포아송 분포의 평균은 0 이상이므로 로그로 양수 제한!)
offset 항 :
관측량(노출량)의 로그값, 모형 안에 계수를 추정하지 않고 고정값으로 포함
R 코드
과대산포(Overdispersion)란?
포아송 분포의 분산보다 자료의 분산이 더 큰 경우
-
포아송:
-
실제자료:
→ 표준오차 과소추정, 유의성 과대판단 위험
과대산포 해결: 준가능도(Quasi-likelihood)
포아송 분포 가정 대신, 평균과 분산 함수만 가정
분산 함수:
산포모수 ϕ (phi) 를 곱해서 분산을 조절
-
-
ϕ > 1 → 과대산포
-
ϕ < 1 → 과소산포
-
ϕ = 1 → 포아송과 같음
-
산포모수 추정
잔차 이탈도 (Residual Deviance) 를 잔차 자유도 (Residual df) 로 나누면 됨.
중요 내용 정리
개념 | 설명 |
---|---|
로그선형모형 | 개수자료, 포아송분포 + 로그링크 |
승법모형 | 설명변수 영향 비율로 해석 |
과대산포 | 자료의 분산 > 포아송 분산 |
준가능도 | 분산함수만 가정, 산포모수 추정 |
offset | 율 자료에서 전체관측도수 보정 |
객관식 문제 (정답 및 해설)
문제 1
로그선형모형에서 연결함수로 사용되는 함수는?
① 항등함수
② 로그함수
③ 로짓함수
④ 제곱함수
정답 : ②
문제 2
포아송 모형의 과대산포 문제를 해결하기 위해 사용하는 방법은?
① MLE
② 준가능도(quasi-likelihood)
③ ANOVA
④ 정규분포 가정
정답 : ②
문제 3
율 자료에서 전체관측도수를 반영하기 위해 사용하는 offset 항은?
① log(λ)
② log(N)
③ N
④ log(μ)
정답 : ②