회귀분석이란 무엇인가요?
우리 주변에서는 어떤 현상이 다른 현상에 영향을 주는 경우가 많습니다.
예를 들어 국민소득이 증가하면 자동차 보유 대수도 증가하거나, 광고비를 많이 지출할수록 매출이 증가하는 현상처럼 말입니다.
이렇게 두 변수 간의 관계를 알아보고, 그 관계를 수학적인 식으로 표현하는 통계 분석 기법을 회귀분석(Regression Analysis)이라고 합니다.
용어 정리
-
설명변수 (X) : 다른 변수에 영향을 주는 변수, 독립변수
-
반응변수 (Y) : 설명변수에 의해 영향을 받는 변수, 종속변수
회귀분석 용어의 유래
영국의 학자 갈튼(Galton)은 완두콩 실험을 통해 부모콩과 자식콩의 무게 관계를 조사하다가, 자식콩의 무게가 평균으로 돌아가려는 경향(Regression to the mean)을 발견했습니다.
이때부터 회귀라는 용어를 사용하게 되었습니다.
단순회귀모형이란?
단순회귀모형(Simple Linear Regression)은 가장 기본적인 형태의 회귀분석으로, 설명변수 1개와 반응변수 1개로 구성된 분석 방법입니다.
수식으로 표현하면 다음과 같습니다.
용어 설명
-
: 절편(intercept), X가 0일 때 Y 값
-
: 기울기(slope), X가 1 증가할 때 Y의 변화량
-
: 오차항(error term), 정규분포
를 따른다고 가정
최소제곱법(Least Squares Method)이란?
실제 데이터로 회귀직선을 구할 때에는 최소제곱법을 사용합니다.
이 방법은 데이터 점들과 직선 사이의 거리(잔차, residual)의 제곱합을 최소화하는 직선을 찾는 방법입니다.
잔차란?
각 데이터의 실제값과 예측값의 차이를 말합니다.
최소제곱법 공식 유도
오차 제곱합 (SSE)
이를 각각 미분하여 0으로 놓고 풀면 다음과 같은 결과가 나옵니다.
이렇게 계산하여 회귀식을 구하게 됩니다.
R로 단순회귀분석 실습
회귀모형 적합하기
R에서는 lm()
함수를 사용하여 단순회귀모형을 적합할 수 있습니다.
1
2
|
market_lm = lm(Y ~ X, data=market)
summary(market_lm)
|
cs |
-
Y ~ X
: Y를 X로 설명한다는 의미입니다. -
data=market
: 사용할 데이터셋 이름입니다.
회귀직선 그리기
1
2
|
plot(market$X, market$Y, pch=19)
abline(market_lm)
|
cs |
-
plot()
: 산점도를 그리는 함수입니다. -
abline()
: 회귀직선을 그려주는 함수입니다.
회귀모형 적합도 확인 방법
결정계수
회귀모형이 데이터를 얼마나 잘 설명하는지를 나타내는 지표입니다.
값이 1에 가까울수록 설명력이 높다고 해석할 수 있습니다.
F-검정 (분산분석표)
전체 회귀모형이 통계적으로 유의한지 검정하는 방법입니다.
보통 p-value가 0.05보다 작으면 회귀모형이 유의하다고 판단합니다.
1
|
anova(market_lm)
|
cs |
중요 내용 정리
개념 | 설명 |
---|---|
회귀분석 | 변수 간 함수관계를 식으로 표현하는 통계 분석 방법 |
단순회귀모형 | 설명변수 1개, 반응변수 1개로 이루어진 회귀모형 |
최소제곱법 | 오차 제곱합을 최소화하여 회귀직선을 구하는 방법 |
결정계수 | 회귀모형이 데이터를 얼마나 설명하는지 나타내는 값 |
F-검정 | 회귀모형의 유의성을 검정하는 방법 (p-value < 0.05) |
R 함수 | lm() , summary() , anova() , plot() , abline() |
객관식 예제문제 (정답 및 해설)
문제 1
다음 중 단순회귀모형에 대한 설명으로 옳지 않은 것은 무엇인가요?
① 설명변수는 1개이다.
② 최소제곱법을 이용하여 회귀선을 구할 수 있다.
③ 결정계수 값이 1에 가까울수록 설명력이 낮다.
④ p-value가 0.05보다 작으면 회귀모형은 유의하다.
정답: ③
해설: 결정계수 값이 1에 가까울수록 설명력이 높습니다.
문제 2
다음 중 R에서 단순회귀모형을 적합하는 함수는 무엇인가요?
① regression()
② lm()
③ anova()
④ summary()
정답: ②
해설: R에서는 lm()
함수를 이용하여 회귀모형을 적합합니다.anova()
는 분산분석, summary()
는 요약, regression()
은 존재하지 않습니다.
문제 3
최소제곱법에서 회귀직선을 결정할 때 최소화하는 값은 무엇인가요?
① 설명된 제곱합
② 총 제곱합
③ 오차 제곱합
④ 결정계수
정답: ③
해설: 최소제곱법에서는 데이터의 예측값과 실제값 차이의 제곱합(SSE)을 최소화하여 회귀직선을 구합니다.