[회귀모형] 5강. 회귀분석에서 변수선택과 다중공선성 쉽게 정리

변수선택이란 무엇인가?

회귀분석에서는 여러 개의 설명변수 중 어떤 변수를 회귀모형에 포함시킬지 결정해야 합니다.
이 과정을 변수선택(Variable Selection)이라고 부릅니다.

복잡한 모형보다는 간결한 모형이 해석이 쉬우며,
쓸데없는 변수가 많으면 분석 결과의 신뢰성과 안정성이 떨어질 수 있습니다.

다중공선성(Multicollinearity) 문제

다중공선성이란 설명변수들 사이에 높은 상관관계가 있어
회귀계수의 해석이 불안정해지는 현상입니다.

다중공선성 확인 방법

  • 설명변수들 간 상관계수 확인

  • 회귀계수의 신뢰구간이 비정상적으로 넓어짐

  • 특정 설명변수를 추가/삭제하면 회귀계수 값이 크게 변함

 

분산팽창인자(VIF)

다중공선성의 정도를 수치로 나타낸 값이 VIF입니다.
VIF 값이 10 이상이면 공선성이 심하다고 판단합니다.

VIF 공식

 

VIFi=11Ri2VIF_i = \frac{1}{1 – R_i^2}

Ri2R_i^2

는 다른 설명변수로 해당 설명변수를 회귀분석했을 때의 결정계수입니다.

변수선택 기준

결정계수(R²)

모형이 종속변수를 얼마나 잘 설명하는지 비율

수정결정계수(Adjusted R²)

설명변수 수를 보정해 모형의 설명력을 평가

Mallows Cp

모형의 예측력을 평가하는 지표

Cp 값이 p(변수 수 + 1)에 가까울수록 좋은 모델

AIC (Akaike Information Criterion)

모형의 적합성과 복잡성을 함께 고려하는 값

값이 작을수록 좋은 모형

변수선택 방법

① 모든 가능한 회귀

모든 변수 조합에 대해 회귀분석을 실시해 최적의 모형 선택

② 앞으로부터 선택법 (Forward Selection)

가장 영향력 있는 변수부터 하나씩 추가

③ 뒤로부터 제거법 (Backward Elimination)

가장 영향력 없는 변수부터 하나씩 제거

④ 단계별 회귀 (Stepwise Regression)

변수를 추가·제거하며 최적 모형 선택

R 코드 실습

VIF 계산

1
2
library(fmsb)
VIF(lm(X1 ~ X2+X3+X4+X5, data=hospital))
cs
  • VIF() : 해당 변수의 다중공선성 수치 계산

  • 10 이상이면 공선성 의심

모든 가능한 회귀

1
2
3
library(leaps)
all_lm = regsubsets(Y ~ ., data=hald)
summary(all_lm)
cs
  • regsubsets() : 모든 변수 조합으로 회귀분석 수행

앞으로부터 선택법

1
2
3
start.lm = lm(Y~1, data=hald)
full.lm = lm(Y~., data=hald)
step(start.lm, scope=list(lower=start.lm, upper=full.lm), direction=”forward”)
cs
  • step() : 변수를 하나씩 추가해가며 AIC 기준으로 모형 선택

뒤로부터 제거법

1
step(full.lm, direction=”backward”)
cs
  • 기존 모형에서 변수를 하나씩 제거하며 AIC로 모형 평가

단계별 회귀

1
step(start.lm, scope=list(upper=full.lm), direction=”both”)
cs
  • 변수를 추가·제거하면서 최적의 모형 찾기

 

중요 내용 정리

개념 설명
변수선택 모형에 포함할 설명변수 결정
다중공선성 설명변수 간 높은 상관관계
VIF 다중공선성 수치, 10 이상이면 공선성 의심
변수선택 기준 R², Adjusted R², Cp, AIC
변수선택 방법 모든 가능한 회귀, forward, backward, stepwise

객관식 문제 (정답 및 해설)

문제 1
다중공선성이 의심되는 경우 확인할 수 있는 지표는?

① AIC
② VIF
③ R²
④ Cp

정답 : ②
해설 : VIF 값이 10 이상이면 다중공선성 의심

문제 2
변수선택 방법 중 가장 영향력 있는 변수부터 하나씩 추가하는 방법은?

① backward
② forward
③ stepwise
④ exhaustive

정답 : ②
해설 : forward selection은 영향력 큰 변수부터 하나씩 추가

문제 3
모형의 적합성과 복잡성을 함께 고려하는 값으로 값이 작을수록 좋은 것은?

① VIF
② AIC
③ R²
④ Cp

정답 : ②
해설 : AIC 값이 작을수록 좋은 모형

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다