변수선택이란 무엇인가?
회귀분석에서는 여러 개의 설명변수 중 어떤 변수를 회귀모형에 포함시킬지 결정해야 합니다.
이 과정을 변수선택(Variable Selection)이라고 부릅니다.
복잡한 모형보다는 간결한 모형이 해석이 쉬우며,
쓸데없는 변수가 많으면 분석 결과의 신뢰성과 안정성이 떨어질 수 있습니다.
다중공선성(Multicollinearity) 문제
다중공선성이란 설명변수들 사이에 높은 상관관계가 있어
회귀계수의 해석이 불안정해지는 현상입니다.
다중공선성 확인 방법
-
설명변수들 간 상관계수 확인
-
회귀계수의 신뢰구간이 비정상적으로 넓어짐
-
특정 설명변수를 추가/삭제하면 회귀계수 값이 크게 변함
분산팽창인자(VIF)
다중공선성의 정도를 수치로 나타낸 값이 VIF입니다.
VIF 값이 10 이상이면 공선성이 심하다고 판단합니다.
VIF 공식
는 다른 설명변수로 해당 설명변수를 회귀분석했을 때의 결정계수입니다.
변수선택 기준
결정계수(R²)
모형이 종속변수를 얼마나 잘 설명하는지 비율
수정결정계수(Adjusted R²)
설명변수 수를 보정해 모형의 설명력을 평가
Mallows Cp
모형의 예측력을 평가하는 지표
Cp 값이 p(변수 수 + 1)에 가까울수록 좋은 모델
AIC (Akaike Information Criterion)
모형의 적합성과 복잡성을 함께 고려하는 값
값이 작을수록 좋은 모형
변수선택 방법
① 모든 가능한 회귀
모든 변수 조합에 대해 회귀분석을 실시해 최적의 모형 선택
② 앞으로부터 선택법 (Forward Selection)
가장 영향력 있는 변수부터 하나씩 추가
③ 뒤로부터 제거법 (Backward Elimination)
가장 영향력 없는 변수부터 하나씩 제거
④ 단계별 회귀 (Stepwise Regression)
변수를 추가·제거하며 최적 모형 선택
R 코드 실습
VIF 계산
-
VIF()
: 해당 변수의 다중공선성 수치 계산 -
10 이상이면 공선성 의심
모든 가능한 회귀
-
regsubsets()
: 모든 변수 조합으로 회귀분석 수행
앞으로부터 선택법
-
step()
: 변수를 하나씩 추가해가며 AIC 기준으로 모형 선택
뒤로부터 제거법
-
기존 모형에서 변수를 하나씩 제거하며 AIC로 모형 평가
단계별 회귀
-
변수를 추가·제거하면서 최적의 모형 찾기
중요 내용 정리
개념 | 설명 |
---|---|
변수선택 | 모형에 포함할 설명변수 결정 |
다중공선성 | 설명변수 간 높은 상관관계 |
VIF | 다중공선성 수치, 10 이상이면 공선성 의심 |
변수선택 기준 | R², Adjusted R², Cp, AIC |
변수선택 방법 | 모든 가능한 회귀, forward, backward, stepwise |
객관식 문제 (정답 및 해설)
문제 1
다중공선성이 의심되는 경우 확인할 수 있는 지표는?
① AIC
② VIF
③ R²
④ Cp
정답 : ②
해설 : VIF 값이 10 이상이면 다중공선성 의심
문제 2
변수선택 방법 중 가장 영향력 있는 변수부터 하나씩 추가하는 방법은?
① backward
② forward
③ stepwise
④ exhaustive
정답 : ②
해설 : forward selection은 영향력 큰 변수부터 하나씩 추가
문제 3
모형의 적합성과 복잡성을 함께 고려하는 값으로 값이 작을수록 좋은 것은?
① VIF
② AIC
③ R²
④ Cp
정답 : ②
해설 : AIC 값이 작을수록 좋은 모형