[회귀모형] 6강. 다항회귀와 가변수 회귀모형 완전 정리

다항회귀모형(Polynomial Regression)이란?

일반적인 회귀분석은 독립변수와 종속변수 간 직선 관계를 가정하지만
현실에서는 곡선 형태로 관계를 나타내는 경우도 많습니다.

이때 사용하는 것이 다항회귀모형입니다.

다항회귀 공식

설명변수가 1개인 2차 다항회귀식:

 

Y=β0+β1X+β2X2+ϵY = \beta_0 + \beta_1 X + \beta_2 X^2 + \epsilon

 

설명변수가 2개인 2차 다항회귀식:

 

Y=β0+β1X1+β2X2+β3X12+β4X22+β5X1X2+ϵY = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \beta_3 X_1^2 + \beta_4 X_2^2 + \beta_5 X_1 X_2 + \epsilon

 

다항회귀 R 코드 및 문법

기본 2차 다항회귀

1
lm(Y ~ X1 + I(X1^2), data=test)
cs
  • I() : 괄호 안의 수식을 계산하여 변수로 처리

교통범죄 데이터 실습

  • plot() : 산점도

  • summary() : 회귀계수와 결정계수 출력

변수 표준화하여 다항회귀

1
2
zmotor = motor – mean(motor)
lm(tcratio ~ zmotor + I(zmotor^2), data=tcrime)
cs
  • 변수 중심화로 다중공선성 완화

 

가변수 회귀모형(Dummy Variable Regression)

회귀분석에 범주형(질적) 변수를 포함시키려면
0과 1로 표현되는 가변수(dummy variable)를 만들어 사용합니다.

  • 특정 조건 만족 → 1

  • 아니면 → 0

이를 통해 서로 다른 집단 간 차이를 분석 가능

가변수 회귀 공식

 

Y=β0+β1X+β2D+ϵY = \beta_0 + \beta_1 X + \beta_2 D + \epsilon

 

여기서

D=1D=1

→ 특정 집단,

D=0D=0

→ 기준 집단

 

 R 코드 실습

비누공장 데이터 가변수 회귀

  • factor() : 숫자형 범주 데이터를 문자형 범주형으로 변환

  • points() : 그룹별 점 표시

  • legend() : 범례 추가

 

가변수 회귀 분석

교호작용 포함 회귀

  • X:D : X와 D의 교호작용항

 

중요 내용 정리

개념 설명
다항회귀 독립변수-종속변수 곡선관계 모형
가변수 범주형 변수를 0과 1로 변환
교호작용 변수 간 상호작용 효과 고려
I() 함수 수식 형태를 변수로 인식
factor() 숫자형 → 범주형 변환

객관식 문제 (정답 및 해설)

문제 1
다항회귀모형의 특징으로 옳은 것은?

① 설명변수와 종속변수가 직선 관계
② 설명변수와 종속변수가 곡선 관계
③ 설명변수가 없는 모형
④ 오차항이 없는 모형

정답 : ②
해설 : 다항회귀는 곡선관계를 모델링합니다.

문제 2
가변수(dummy variable)의 값으로 적절한 것은?

① 범주 수
② 0과 1
③ 연속값
④ p-value

정답 : ②
해설 : 가변수는 0과 1로 표현

문제 3
R에서 교호작용항을 입력할 때 사용하는 기호는?

+
:
*
^

정답 : ②
해설 : X:D 형태로 교호작용 표현

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다