[데이터마이닝] 3강. R에서 회귀모형 함수 정리

데이터마이닝 03강 | 회귀모형 R 함수와 실습 완전 정리

이번 시간에는 데이터마이닝 분석을 R로 수행할 때 꼭 알아야 할 주요 함수를 정리합니다.
선형회귀, 로지스틱회귀, 모형 선택, 예측까지 실전에서 바로 활용 가능한 R 함수 문법과 옵션을 자세히 알려드리겠습니다.


R에서 회귀모형 함수 정리

선형회귀모형 함수 lm()

데이터에서 선형회귀모형을 적합할 때 사용하는 함수입니다.

1
lm(formula, data, na.action)
cs
  • formula : 분석할 공식 (예 : Y ~ X1 + X2)
    모든 변수를 사용할 경우 Y ~ .로 작성

  • data : 사용할 데이터 프레임 이름

  • na.action : 결측치 처리 방식

    • na.fail : 결측치 있으면 오류

    • na.omit, na.exclude : 결측치 제외

로지스틱회귀모형 함수 glm()

이항형 목표변수(0/1)일 때 사용하는 로지스틱 회귀모형 함수입니다.

1
glm(formula, family, data, na.action)
cs
  • formula : 분석 공식

  • family : 분포와 연결함수 설정

    • 선형모형 → gaussian

    • 로지스틱 회귀 → binomial 또는 binomial(link="logit")

  • data : 데이터 프레임

  • na.action : 결측치 처리 방식

옵션 설명
na.omit NA가 포함된 행을 제거하고 분석 수행
na.exclude NA가 포함된 행을 제거하되, 결과에는 NA 위치 유지
na.fail NA가 존재하면 에러 발생
na.pass NA를 그대로 둔 채 분석 (특수상황용)

모형 선택 함수 step()

여러 개의 모형 중에서 AIC 값 기준으로 가장 좋은 모형을 선택하는 함수입니다.

1
step(object, direction = c(“both”, “backward”, “forward”))
cs
  • object : lm(), glm() 함수로 생성한 회귀모형 결과

  • direction : 변수 선택 방법

    • "both" : 단계적 선택

    • "backward" : 후진소거법

    • "forward" : 전진선택법

예측 함수 predict()

적합된 모형으로 새로운 데이터의 값을 예측할 때 사용하는 함수입니다.

1
predict(object, newdata, type)
cs
  • object : lm() 또는 glm() 결과

  • newdata : 예측할 데이터

  • type : 예측 형태

    • 목표값 예측 → type="response"

모형 종류 type 옵션 반환 내용
회귀모형(lm, glm) "response" 예측값
회귀모형(lm, glm) "terms" 각 변수 기여도
로지스틱 회귀 "link" 로짓값
로지스틱 회귀 "response" 성공확률
분류모형 "class" 예측 클래스
분류모형 "prob" 각 클래스의 확률

중요내용 정리

  • lm() : 선형회귀모형 적합

  • glm() : 일반화 선형모형 적합 (로지스틱회귀 가능)

  • step() : AIC 기준 변수 선택

  • predict() : 모형 예측값 계산

각 함수의 주요 옵션과 사용법을 숙지하면, 데이터마이닝 분석을 R로 실전에서 바로 적용할 수 있습니다.


객관식 문제 & 해설

Q1. 선형회귀모형을 적합할 때 사용하는 함수는?
① glm()
② predict()
③ lm()
④ step()

정답:
해설: lm() 함수는 선형회귀모형을 적합할 때 사용하는 기본 함수입니다.

Q2. 로지스틱 회귀분석 시 family 옵션으로 올바른 값은?
① gaussian
② binomial
③ poisson
④ identity

정답:
해설: 로지스틱 회귀는 이항형 데이터를 다루므로 family=binomial을 사용합니다.

Q3. AIC 값을 기준으로 모형을 선택하는 함수는?
① predict()
② step()
③ lm()
④ glm()

정답:
해설: step() 함수는 AIC 값을 기준으로 가장 적합한 모형을 선택하는 함수입니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다