1. 상관관계 분석
시계열 간 관계
시간 흐름에 따라 변하는 두 변수 간의 관계를 측정하는 방법
→ 상관계수로 두 변수 간 선형적 강도를 측정
표본상관계수
두 변수 X, Y의 상관계수 계산 공식
-
1에 가까울수록 강한 양의 상관
-
-1에 가까울수록 강한 음의 상관
-
0에 가까우면 상관 없음
표본 교차상관계수
시간차(시차, lag)를 고려해 상관관계 분석
: 동시 상관
: X가 Y를 선행
: Y가 X를 선행
2. 회귀분석 개요
회귀분석의 목적
-
종속변수 Y를 독립변수 X의 값으로 설명하거나 예측
-
변수 간 인과 관계를 모델링
단순회귀모형
하나의 독립변수로 종속변수를 설명
: 절편
: 기울기 (X가 1만큼 변할 때 Y 변화량)
중회귀모형
두 개 이상의 독립변수로 종속변수 설명
: 부분회귀계수 (다른 변수 고정 시 X 변화량에 따른 Y 변화량)
3. 회귀모형의 작성
작성 절차
① 설명변수(독립변수) 선정
② 모형 설정
③ 계수 추정 및 적합도 평가
모형 설정의 가정
-
오차의 평균은 0
-
오차의 분산은 일정
-
오차 간 독립
-
오차와 독립변수 독립
다중공선성(multicollinearity)
독립변수 간 상관이 높으면 계수 추정이 불안정
→ VIF(분산팽창지수)로 확인, 값이 10 이상이면 문제
회귀계수 추정
최소제곱법(OLS) : 잔차 제곱합 최소화
결정계수 R²
-
0~1 값
-
1에 가까울수록 설명력 높음
-
수정 결정계수
: 독립변수 개수 보정
4. R 실습 코드
상관관계 분석
단순회귀분석
중회귀분석
중요 내용 정리
-
상관관계 분석 : 변수 간 선형적 관계 측정
-
단순회귀 : 독립변수 1개, 중회귀 : 2개 이상
-
모형 설정 가정 : 오차 독립, 등분산, 정규성
-
다중공선성 : 독립변수 간 상관문제
-
결정계수 R² : 모형 설명력
-
R에서는
acf()
,lm()
함수로 분석 가능
객관식 문제
1. 상관계수 r 값의 범위는?
① 0 ~ 1
② -1 ~ 1
③ 0 ~ 100
④ -100 ~ 100
정답: ②
해설: 상관계수는 -1~1 사이 값 가짐.
2. 회귀분석의 기본 가정이 아닌 것은?
① 오차의 평균은 0
② 오차 간 독립
③ 오차의 분산이 시간에 따라 변함
④ 오차는 정규분포
정답: ③
해설: 오차의 분산은 시간에 따라 변하지 않아야 함.
3. 다중공선성 검토에 사용하는 지표는?
① R²
② AIC
③ VIF
④ BIC
정답: ③
해설: VIF(분산팽창지수)는 다중공선성 문제 확인 지표.