로지스틱 회귀모형 복습
반응변수가 성공/실패(1/0) 이항형 자료일 때 사용하는 GLM의 대표적인 모형이 로지스틱 회귀입니다.
여기서
-
π(x)
: 성공확률
-
: X가 1 증가할 때 로그-승산의 변화량
-
: 승산비(odds ratio)
로지스틱 함수와 해석
-
S자형 곡선
-
이면 증가,
이면 감소
평균주변효과 (AME)
- 비선형 회귀모형(로지스틱/프로빗 회귀 등)에서설명변수 X가 1단위 변할 때, 종속변수의 기대확률 P의 변화량의 평균값을 의미.
-
여기서
-
:
일 때 사건이 발생할 확률
-
: 설명변수
의 계수
-
:
가 1 단위 증가할 때, 확률의 변화율 (marginal effect)
-
승산비 해석
X가 1 증가할 때 성공확률의 승산비 배수 증가
예:
→ 1km 증가시 성공확률의 승산이 1.022배
프로빗 회귀모형
로지스틱 대신 표준정규분포 누적분포함수로 연결
-
: 표준정규 누적분포
-
X 증가 시 확률 증가 패턴은 유사
최대가능도추정 (MLE)
GLM에서는 가능도 함수를 최대로 하는 모수를 찾는 방법 사용
수식 정리
-
점수함수:
-
관측정보행렬:
점수함수를 다시 모수에 대해 2번 미분한 것의 음수
수치적 방법
MLE에서 점수함수
대부분의 GLM에서는 이 방정식이 해석적으로 풀 수가 없습니다.
그래서 수치적으로 반복해서 근사해가는 방법이 필요합니다.
-
Newton-Raphson : 기울기랑 꺾임을 직접 계산해서 이동
-
Fisher Scoring : 평균 꺾임값으로 이동
-
반복재가중최소제곱법 (IRLS) : Fisher Scoring을 선형회귀 문제로 바꿔서 가중치 주며 반복
모형 진단 : 이탈도 (Deviance)
현재모형과 포화모형의 로그가능도 차이
-
작을수록 적합도 높음
-
이탈도 차이로 두 모형 비교 가능
검정통계량
모형 진단 : 잔차 (Residual)
종류
-
Raw Residual : 기본적인 차이
-
Pearson Residual : 표준화된 잔차
-
Deviance Residual : 가능도 기반, 적합도 확인에 많이 씀
잔차 산점도 & Q-Q plot 확인
→ 이상치, 정규성, 등분산성 진단 가능
잔차 산점도 (Residual Plot)
-
예측값과 잔차의 관계를 보는 그래프
-
모형이 데이터 패턴을 잘 잡았는지 확인
-
패턴 없이 아무렇게나 흩어져 있으면 좋음
-
특정 모양(곡선, 점점 커짐 등)이 보이면 모형이 그 부분을 제대로 설명 못한다는 뜻
Q-Q plot (Quantile-Quantile Plot)
- 잔차가 정규분포를 따르는지 확인하는 그래프
- 가로축 : 이론적인 정규분포 분위수
- 세로축 : 실제 잔차의 분위수
- 점들이 대각선에 잘 맞으면 정규성 만족
- 점들이 선에서 많이 벗어나면 정규성 위배 (잔차가 비정규분포)
중요 내용 정리
개념 | 설명 |
---|---|
GLM | 반응변수 분포를 정규 외 이항, 포아송으로 확장 |
로지스틱 회귀 | 성공/실패 확률 예측 |
승산비 | X 1증가시 odds 배수 |
프로빗 회귀 | 정규 누적분포함수 연결 |
MLE | 가능도 최댓값 추정 |
이탈도 | 모형적합도 지표 |
잔차 | 이상치 및 가정검토 지표 |
객관식 문제 (정답 및 해설)
문제 1
로지스틱 회귀모형의 연결함수는?
① 항등함수
② 로그함수
③ 로짓함수
④ 정규분포함수
정답 : ③
문제 2
GLM에서 이탈도(Deviance)의 의미는?
① 평균 제곱 오차
② 모형의 복잡성
③ 현재모형과 포화모형의 로그가능도 차이
④ 잔차의 제곱합
정답 : ③
문제 3
다음 중 GLM의 MLE 추정 방법이 아닌 것은?
① IRLS
② Fisher Scoring
③ Newton-Raphson
④ 잔차제곱합 최소화
정답 : ④