일반화선형모형(GLM)란?
기존 선형회귀모형의 한계를 극복하기 위해,
반응변수의 분포가 정규분포 외에도 이항분포, 포아송분포, 감마분포 등을 따르는 상황에서 쓸 수 있도록 확장한 회귀모형입니다.
Nelder & Wedderburn (1972) 이론에 기반.
GLM 구성요소 3가지
1️⃣ 반응변수의 분포
-
정규, 이항, 포아송, 감마 등 지수족 분포
2️⃣ 선형예측자 (η)
-
설명변수의 선형결합
3️⃣ 연결함수 (g)
-
반응변수의 평균과 선형예측자를 연결
-
항등함수:
-
로짓함수:
-
로그함수:
대표적인 GLM 종류와 분포
분포 | 적용 사례 | 연결함수 |
---|---|---|
정규분포 | 일반연속형 | 항등 |
이항분포 | 성공/실패 | 로짓 |
포아송분포 | 사건발생 횟수 | 로그 |
로지스틱 회귀모형(Logistic Regression)
반응변수가 0 또는 1인 이분형 자료에서 사용
-
: 사건 발생 확률
R의 glm() 함수 사용법
-
family=binomial
: 이항분포 -
link="logit"
: 로짓함수 사용 -
occur
: 반응변수 (0/1)
모형 유의성 검정 (이탈도 차이 이용)
가능도비 검정
df : 두 모형 간 자유도 차이
p-value < 0.05 → 모형 유의
모형선택 : stepAIC()
-
AIC 값이 가장 작은 모형 선택
프로빗 회귀모형(Probit Regression)
로지스틱 회귀와 비슷하지만 연결함수로 표준정규분포의 누적분포함수의 역함수 사용
구분 | 로지스틱 회귀 | 프로빗 회귀 |
---|---|---|
연결함수 | 로짓 함수(logit) : | 프로빗 함수(probit) : |
분포 | 로지스틱 분포 | 표준정규분포 |
확률계산 | 오즈비 기반 | Z값 기반 |
사용 상황 | 일반적인 이진반응 모형 | 잠재변수가 정규분포 따른다고 가정할 때 |
결과 차이 | 거의 비슷 | 거의 비슷 |
중요 내용 정리
개념 | 설명 |
---|---|
GLM | 반응변수 분포가 정규분포 외에도 가능 |
선형예측자 | 설명변수의 선형결합 |
연결함수 | 평균과 선형결합을 함수로 연결 |
로지스틱 회귀 | 이분형 자료, 로짓함수 |
프로빗 회귀 | 표준정규분포 누적분포함수 이용 |
stepAIC() | AIC 최소 모형 선택 |
객관식 문제 (정답 및 해설)
문제 1
일반화선형모형(GLM)의 구성요소가 아닌 것은?
① 반응변수의 분포
② 선형예측자
③ 잔차제곱합
④ 연결함수
정답 : ③
해설 : 잔차제곱합은 OLS(선형회귀) 개념
문제 2
로지스틱 회귀모형의 연결함수로 사용되는 것은?
① 항등함수
② 로그함수
③ 로짓함수
④ 제곱함수
정답 : ③
해설 : 이항자료에서는 logit(로짓) 함수 사용
문제 3
GLM에서 반응변수의 분포가 이항분포일 때 가능한 연결함수는?
① log(μ)
② logit(π)
③ identity(μ)
④ exp(μ)
정답 : ②
해설 : 이항분포는 logit 함수가 정준연결