[데이터마이닝] 2강. 선형회귀, 로지스틱회귀

데이터마이닝 회귀모형 기초와 실습 — 선형회귀, 로지스틱회귀

회귀모형이란?

회귀모형은 입력변수(X)와 결과값(Y) 사이의 관계를 수학적으로 표현해주는 모형입니다.
데이터 분석에서 결과를 예측하거나 변수 간 관계를 설명할 때 활용됩니다.


선형회귀모형 (Linear Regression)

공식과 개념

 

Yi=β0+β1Xi1+β2Xi2++βpXip+ϵiY_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_p X_{ip} + \epsilon_i

β0\beta_0

: 절편(intercept)

βj\beta_j

: 입력변수

XjX_j

의 회귀계수

ϵi\epsilon_i

: 오차항 (평균 0, 분산 일정, 정규분포)

회귀계수 추정 (최소제곱법)

오차제곱합(SSE : Sum of Squared Errors)을 최소화하여 회귀계수를 추정합니다.

 

SSE=i=1n(YiY^i)2SSE = \sum_{i=1}^{n} (Y_i – \hat{Y}_i)^2

가장 작은 SSE를 갖도록

β\beta

값을 찾는 방법이 최소제곱법(Least Squares Estimation)입니다.

회귀계수 해석

  • βj\beta_j

    값이 양수 →

    XjX_j

    가 1 증가할 때 Y가 증가

  • βj\beta_j

    값이 음수 →

    XjX_j

    가 1 증가할 때 Y가 감소

변수 중요도

각 변수의 t값을 통해 영향력을 판단합니다.

 

tj=β^jSE(β^j)t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}

→ 절대값이 클수록 영향력 큼

모형 적합도

  • F-검정 : 모든 회귀계수가 0인지 아닌지 확인

  • 결정계수(R²) : 설명 가능한 변동량의 비율

R2=SSRSSTR^2 = \frac{SSR}{SST}

  • Adjusted R² : 변수 개수가 늘어날 때 R² 보정값

  • AIC : 모형 복잡도와 적합도를 함께 고려

예측과 예측력 평가

  • 예측값과 실제값의 차이를 MSE(평균제곱오차)로 측정

 

MSE=1ni=1n(YiY^i)2MSE = \frac{1}{n}\sum_{i=1}^{n} (Y_i – \hat{Y}_i)^2

  • 산점도에서 45° 대각선 주변으로 점이 몰릴수록 예측력이 우수

로지스틱 회귀모형 (Logistic Regression)

개념

결과가 0 또는 1인 이항형 변수인 경우 사용
선형회귀를 그대로 적용하면 0~1 범위를 벗어날 수 있어 로짓 함수(logit function)를 활용

 

logit(p)=log(p1p)=β0+β1X1++βpXp

여기서

pp

는 성공확률

성공확률 함수

S-형태의 로지스틱 함수

 

p=eβ0+βjXj1+eβ0+βjXjp = \frac{e^{\beta_0 + \sum \beta_j X_j}}{1 + e^{\beta_0 + \sum \beta_j X_j}}

회귀계수 추정

최대우도추정법(MLE) 사용.
우도함수(likelihood function)를 최대화하여 모수 추정
뉴턴-랩슨(Newton-Raphson)이나 피셔스코링(Fisher scoring)으로 계산

변수 중요도

z값

 

zj=β^jSE(β^j)z_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)}

절대값이 클수록 영향력 큼

적합도 평가

  • 이탈도(Deviance) : 포화모형과 현재 모형의 로그우도 차이

  • AIC : 낮을수록 좋은 모형

  • 정오분류표로 예측력 확인

예측 1 0
실제 1 TP FN
실제 0 FP TN
  • 민감도(Sensitivity) : 실제 1일 때 1로 예측

  • 특이도(Specificity) : 실제 0일 때 0으로 예측

  • 오분류율 : 잘못 분류한 비율

범주형 입력변수 처리

입력변수 X가 3개의 범주(a, b, c)라면
L-1 개 가변수(dummy 변수) 생성

X D1 D2
a 1 0
b 0 1
c 0 0

→ 기준범주 c

변수 선택법

  • 후진소거법 : 모든 변수 포함 → 하나씩 제거

  • 전진선택법 : 상수항만 포함 → 하나씩 추가

  • 단계적선택법 : 전진과 후진을 동시에 수행

중요내용 정리

  • 선형회귀 : 연속형 결과변수 예측

  • 로지스틱회귀 : 이항형 결과변수 예측

  • 회귀계수 해석, 변수 중요도(t, z값), 모형적합도(F, R², AIC, Deviance)

  • 범주형 변수는 가변수로 변환

  • 변수 선택법 : 후진소거, 전진선택, 단계적선택


객관식 문제 & 해설

Q1. 선형회귀에서 변수의 중요도를 판단하는 지표는?
① AIC
② MSE
③ t값
④ 오분류율

정답:
해설: t값이 클수록 해당 변수의 영향력이 큽니다.

Q2. 로지스틱 회귀모형에서 성공확률과 실패확률의 비율을 무엇이라 하는가?
① 로짓
② 오즈
③ MSE
④ R²

정답:
해설: 성공확률/실패확률의 비율을 오즈(odds)라 합니다.

Q3. 범주형 변수를 선형회귀에 포함시키기 위해 사용하는 방법은?
① 그대로 사용
② 평균값으로 대체
③ 가변수 생성
④ z-값 계산

정답:
해설: 범주형 변수는 L-1개의 가변수(dummy)를 생성해 분석에 포함합니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다