데이터마이닝 03강 | 회귀모형 R 함수와 실습 완전 정리
이번 시간에는 데이터마이닝 분석을 R로 수행할 때 꼭 알아야 할 주요 함수를 정리합니다.
선형회귀, 로지스틱회귀, 모형 선택, 예측까지 실전에서 바로 활용 가능한 R 함수 문법과 옵션을 자세히 알려드리겠습니다.
R에서 회귀모형 함수 정리
선형회귀모형 함수 lm()
데이터에서 선형회귀모형을 적합할 때 사용하는 함수입니다.
1
|
lm(formula, data, na.action)
|
cs |
-
formula
: 분석할 공식 (예 :Y ~ X1 + X2
)
모든 변수를 사용할 경우Y ~ .
로 작성 -
data
: 사용할 데이터 프레임 이름 -
na.action
: 결측치 처리 방식-
na.fail
: 결측치 있으면 오류 -
na.omit
,na.exclude
: 결측치 제외
-
로지스틱회귀모형 함수 glm()
이항형 목표변수(0/1)일 때 사용하는 로지스틱 회귀모형 함수입니다.
1
|
glm(formula, family, data, na.action)
|
cs |
-
formula
: 분석 공식 -
family
: 분포와 연결함수 설정-
선형모형 →
gaussian
-
로지스틱 회귀 →
binomial
또는binomial(link="logit")
-
-
data
: 데이터 프레임 -
na.action
: 결측치 처리 방식
옵션 | 설명 |
---|---|
na.omit |
NA가 포함된 행을 제거하고 분석 수행 |
na.exclude |
NA가 포함된 행을 제거하되, 결과에는 NA 위치 유지 |
na.fail |
NA가 존재하면 에러 발생 |
na.pass |
NA를 그대로 둔 채 분석 (특수상황용) |
모형 선택 함수 step()
여러 개의 모형 중에서 AIC 값 기준으로 가장 좋은 모형을 선택하는 함수입니다.
1
|
step(object, direction = c(“both”, “backward”, “forward”))
|
cs |
-
object
:lm()
,glm()
함수로 생성한 회귀모형 결과 -
direction
: 변수 선택 방법-
"both"
: 단계적 선택 -
"backward"
: 후진소거법 -
"forward"
: 전진선택법
-
예측 함수 predict()
적합된 모형으로 새로운 데이터의 값을 예측할 때 사용하는 함수입니다.
1
|
predict(object, newdata, type)
|
cs |
-
object
:lm()
또는glm()
결과 -
newdata
: 예측할 데이터 -
type
: 예측 형태-
목표값 예측 →
type="response"
-
모형 종류 | type 옵션 | 반환 내용 |
---|---|---|
회귀모형(lm, glm) | "response" |
예측값 |
회귀모형(lm, glm) | "terms" |
각 변수 기여도 |
로지스틱 회귀 | "link" |
로짓값 |
로지스틱 회귀 | "response" |
성공확률 |
분류모형 | "class" |
예측 클래스 |
분류모형 | "prob" |
각 클래스의 확률 |
중요내용 정리
-
lm() : 선형회귀모형 적합
-
glm() : 일반화 선형모형 적합 (로지스틱회귀 가능)
-
step() : AIC 기준 변수 선택
-
predict() : 모형 예측값 계산
각 함수의 주요 옵션과 사용법을 숙지하면, 데이터마이닝 분석을 R로 실전에서 바로 적용할 수 있습니다.
객관식 문제 & 해설
Q1. 선형회귀모형을 적합할 때 사용하는 함수는?
① glm()
② predict()
③ lm()
④ step()
정답: ③
해설: lm()
함수는 선형회귀모형을 적합할 때 사용하는 기본 함수입니다.
Q2. 로지스틱 회귀분석 시 family 옵션으로 올바른 값은?
① gaussian
② binomial
③ poisson
④ identity
정답: ②
해설: 로지스틱 회귀는 이항형 데이터를 다루므로 family=binomial
을 사용합니다.
Q3. AIC 값을 기준으로 모형을 선택하는 함수는?
① predict()
② step()
③ lm()
④ glm()
정답: ②
해설: step()
함수는 AIC 값을 기준으로 가장 적합한 모형을 선택하는 함수입니다.