[예측방법론] 9강. 상관관계와 회귀분석 기본

1. 상관관계 분석

시계열 간 관계

시간 흐름에 따라 변하는 두 변수 간의 관계를 측정하는 방법
상관계수로 두 변수 간 선형적 강도를 측정

표본상관계수

두 변수 X, Y의 상관계수 계산 공식

r=(XiXˉ)(YiYˉ)(XiXˉ)2(YiYˉ)2r = \frac{\sum (X_i – \bar{X})(Y_i – \bar{Y})}{\sqrt{\sum (X_i – \bar{X})^2 \sum (Y_i – \bar{Y})^2}}

  • 1에 가까울수록 강한 양의 상관

  • -1에 가까울수록 강한 음의 상관

  • 0에 가까우면 상관 없음

표본 교차상관계수

시간차(시차, lag)를 고려해 상관관계 분석

r(k)=시차 k일 때 X와 Y의 상관r(k) = \text{시차 k일 때 X와 Y의 상관}

k=0k=0

: 동시 상관

k>0k>0

: X가 Y를 선행

k<0k<0

: Y가 X를 선행

2. 회귀분석 개요

회귀분석의 목적

  • 종속변수 Y독립변수 X의 값으로 설명하거나 예측

  • 변수 간 인과 관계를 모델링

단순회귀모형

하나의 독립변수로 종속변수를 설명

Yt=β0+β1Xt+ϵtY_t = \beta_0 + \beta_1 X_t + \epsilon_t

β0\beta_0

: 절편

β1\beta_1

: 기울기 (X가 1만큼 변할 때 Y 변화량)

중회귀모형

두 개 이상의 독립변수로 종속변수 설명

Yt=β0+β1X1t+β2X2t+ϵtY_t = \beta_0 + \beta_1 X_{1t} + \beta_2 X_{2t} + \epsilon_t

β\beta

: 부분회귀계수 (다른 변수 고정 시 X 변화량에 따른 Y 변화량)

3. 회귀모형의 작성

작성 절차

① 설명변수(독립변수) 선정
② 모형 설정
③ 계수 추정 및 적합도 평가

모형 설정의 가정

  • 오차의 평균은 0

  • 오차의 분산은 일정

  • 오차 간 독립

  • 오차와 독립변수 독립

다중공선성(multicollinearity)

독립변수 간 상관이 높으면 계수 추정이 불안정
→ VIF(분산팽창지수)로 확인, 값이 10 이상이면 문제

회귀계수 추정

최소제곱법(OLS) : 잔차 제곱합 최소화

Yt^=β0^+β1^X1t+β2^X2t\hat{Y_t} = \hat{\beta_0} + \hat{\beta_1} X_{1t} + \hat{\beta_2} X_{2t}

결정계수 R²

R2=1RSSTSSR^2 = 1 – \frac{\text{RSS}}{\text{TSS}}

  • 0~1 값

  • 1에 가까울수록 설명력 높음

  • 수정 결정계수

    R2ˉ\bar{R^2}: 독립변수 개수 보정

4. R 실습 코드

상관관계 분석

단순회귀분석

중회귀분석


중요 내용 정리

  • 상관관계 분석 : 변수 간 선형적 관계 측정

  • 단순회귀 : 독립변수 1개, 중회귀 : 2개 이상

  • 모형 설정 가정 : 오차 독립, 등분산, 정규성

  • 다중공선성 : 독립변수 간 상관문제

  • 결정계수 R² : 모형 설명력

  • R에서는 acf(), lm() 함수로 분석 가능


객관식 문제

1. 상관계수 r 값의 범위는?

① 0 ~ 1
② -1 ~ 1
③ 0 ~ 100
④ -100 ~ 100
정답:
해설: 상관계수는 -1~1 사이 값 가짐.

2. 회귀분석의 기본 가정이 아닌 것은?
① 오차의 평균은 0
② 오차 간 독립
③ 오차의 분산이 시간에 따라 변함
④ 오차는 정규분포
정답:
해설: 오차의 분산은 시간에 따라 변하지 않아야 함.

3. 다중공선성 검토에 사용하는 지표는?
① R²
② AIC
③ VIF
④ BIC
정답:
해설: VIF(분산팽창지수)는 다중공선성 문제 확인 지표.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다