데이터마이닝 회귀모형 기초와 실습 — 선형회귀, 로지스틱회귀
회귀모형이란?
회귀모형은 입력변수(X)와 결과값(Y) 사이의 관계를 수학적으로 표현해주는 모형입니다.
데이터 분석에서 결과를 예측하거나 변수 간 관계를 설명할 때 활용됩니다.
선형회귀모형 (Linear Regression)
공식과 개념
: 절편(intercept)
: 입력변수
의 회귀계수
: 오차항 (평균 0, 분산 일정, 정규분포)
회귀계수 추정 (최소제곱법)
오차제곱합(SSE : Sum of Squared Errors)을 최소화하여 회귀계수를 추정합니다.
가장 작은 SSE를 갖도록
값을 찾는 방법이 최소제곱법(Least Squares Estimation)입니다.
회귀계수 해석
-
값이 양수 →
가 1 증가할 때 Y가 증가
-
값이 음수 →
가 1 증가할 때 Y가 감소
변수 중요도
각 변수의 t값을 통해 영향력을 판단합니다.
→ 절대값이 클수록 영향력 큼
모형 적합도
-
F-검정 : 모든 회귀계수가 0인지 아닌지 확인
-
결정계수(R²) : 설명 가능한 변동량의 비율
-
Adjusted R² : 변수 개수가 늘어날 때 R² 보정값
-
AIC : 모형 복잡도와 적합도를 함께 고려
예측과 예측력 평가
-
예측값과 실제값의 차이를 MSE(평균제곱오차)로 측정
-
산점도에서 45° 대각선 주변으로 점이 몰릴수록 예측력이 우수
로지스틱 회귀모형 (Logistic Regression)
개념
결과가 0 또는 1인 이항형 변수인 경우 사용
선형회귀를 그대로 적용하면 0~1 범위를 벗어날 수 있어 로짓 함수(logit function)를 활용
여기서
는 성공확률
성공확률 함수
S-형태의 로지스틱 함수
회귀계수 추정
최대우도추정법(MLE) 사용.
우도함수(likelihood function)를 최대화하여 모수 추정
뉴턴-랩슨(Newton-Raphson)이나 피셔스코링(Fisher scoring)으로 계산
변수 중요도
z값
절대값이 클수록 영향력 큼
적합도 평가
-
이탈도(Deviance) : 포화모형과 현재 모형의 로그우도 차이
-
AIC : 낮을수록 좋은 모형
-
정오분류표로 예측력 확인
예측 | 1 | 0 |
---|---|---|
실제 1 | TP | FN |
실제 0 | FP | TN |
-
민감도(Sensitivity) : 실제 1일 때 1로 예측
-
특이도(Specificity) : 실제 0일 때 0으로 예측
-
오분류율 : 잘못 분류한 비율
범주형 입력변수 처리
입력변수 X가 3개의 범주(a, b, c)라면
→ L-1 개 가변수(dummy 변수) 생성
X | D1 | D2 |
---|---|---|
a | 1 | 0 |
b | 0 | 1 |
c | 0 | 0 |
→ 기준범주 c
변수 선택법
-
후진소거법 : 모든 변수 포함 → 하나씩 제거
-
전진선택법 : 상수항만 포함 → 하나씩 추가
-
단계적선택법 : 전진과 후진을 동시에 수행
중요내용 정리
-
선형회귀 : 연속형 결과변수 예측
-
로지스틱회귀 : 이항형 결과변수 예측
-
회귀계수 해석, 변수 중요도(t, z값), 모형적합도(F, R², AIC, Deviance)
-
범주형 변수는 가변수로 변환
-
변수 선택법 : 후진소거, 전진선택, 단계적선택
객관식 문제 & 해설
Q1. 선형회귀에서 변수의 중요도를 판단하는 지표는?
① AIC
② MSE
③ t값
④ 오분류율
정답: ③
해설: t값이 클수록 해당 변수의 영향력이 큽니다.
Q2. 로지스틱 회귀모형에서 성공확률과 실패확률의 비율을 무엇이라 하는가?
① 로짓
② 오즈
③ MSE
④ R²
정답: ②
해설: 성공확률/실패확률의 비율을 오즈(odds)라 합니다.
Q3. 범주형 변수를 선형회귀에 포함시키기 위해 사용하는 방법은?
① 그대로 사용
② 평균값으로 대체
③ 가변수 생성
④ z-값 계산
정답: ③
해설: 범주형 변수는 L-1개의 가변수(dummy)를 생성해 분석에 포함합니다.