[데이터마이닝] 4강. 의사결정나무 개념부터 분할방법까지 완전정리

데이터마이닝 04강 | 의사결정나무 개념부터 분할방법까지 완전정리

이번 시간에는 데이터마이닝의 대표적인 분석기법인 의사결정나무(Decision Tree)에 대해 정리합니다.
이 기법은 복잡한 데이터 속에서 간결한 의사결정 규칙을 도출해 분류 또는 예측 문제를 해결하는 방법입니다.

의사결정나무란?

데이터를 나무(tree) 형태로 분할해가며 분석하는 기법으로,

  • 결과변수가 범주형분류나무(Classification Tree)

  • 결과변수가 수치형회귀나무(Regression Tree)

로 나눌 수 있습니다.

활용 목적

  • 분류 : 카드발급 승인 여부

  • 예측 : 월 평균 카드 사용액

  • 변수선택, 등급화, 고객 세분화에도 활용

의사결정나무의 역사

시기 방법 특징
1964 AID 최초의 교호작용 탐색
1973 THAID AID 개량
1980 CHAID 카이제곱기반 분할
1984 CART 분류·회귀 가능
1983 C4.5 엔트로피 기반, 다중 분할 가능
2006 CTREE 조건부추론 활용

의사결정나무 장단점

장점

  • 변수 형태 관계 없이 사용 가능

  • 해석 용이

  • 교호작용 쉽게 포착

  • 결측치 처리 가능

  • 예측이 빠르고 간편

단점

  • 과하게 단순화 가능

  • 데이터에 민감, 불안정

  • 분할점의 경직성

분류의사결정나무의 분할방법

CART 방식

지니지수(Gini Index)로 불순도를 측정해
분할개선도가 가장 높은 분할 기준을 선택

 

Gini(t)=1j=1Jp(jt)2Gini(t) = 1 – \sum_{j=1}^{J} p(j|t)^2

  • 지니지수 값이 작을수록 순수

  • 지니지수 감소량 = 분할개선도

범주형 변수의 경우 가능한 모든 부분집합으로 분할
연속형 변수는 모든 분할점 후보를 검사해 개선도 최대값 선택

C4.5 방식

엔트로피(Entropy) 기반 불순도 함수 사용

 

Entropy(t)=j=1Jp(jt)log2p(jt)Entropy(t) = – \sum_{j=1}^{J} p(j|t) \log_2 p(j|t)

분할개선도 = 엔트로피 감소량 = 정보이득(Information Gain)

의사결정나무 크기선택

분할 정지방법

  • 매 단계 통계적 유의성 검정

  • 유의하지 않으면 분할 중단

가지치기방법

  • 일단 계속 분할 후

  • 과적합 방지 위해 부적절한 마디 제거

비용복잡함수

 

Rα(T)=R(T)+αTR_\alpha(T) = R(T) + \alpha |T|

  • α\alpha

    : 벌점계수

  • |T| : 마디 개수

  • 가장 낮은 비용복잡도 가지는 나무 선택

회귀의사결정나무의 분할방법

불순도 함수 대신 분산 함수(variance) 사용
연속형 결과변수에서 분할 시 각 그룹의 분산을 최소화하는 분할점 선택

중요내용 정리

  • 의사결정나무는 분류나 예측 문제를 나무구조로 분석하는 기법

  • CART → 지니지수, C4.5 → 엔트로피 사용

  • 가지치기로 과적합 방지

  • 분할정지방법비용복잡함수로 크기 결정

  • 회귀나무는 분산 최소화 방식


객관식 문제 & 해설

Q1. CART 모형의 분할 기준으로 사용하는 불순도 함수는?
① 엔트로피
② 지니지수
③ R²
④ 오즈비

정답:
해설: CART는 지니지수를 통해 노드의 순수도를 측정하여 분할합니다.

Q2. C4.5 의사결정나무에서 불순도를 측정하는 함수는?
① 분산
② 지니지수
③ 엔트로피
④ 오분류율

정답:
해설: C4.5는 엔트로피 기반 정보이득을 활용해 분할 기준을 결정합니다.

Q3. 의사결정나무의 과적합 방지를 위해 사용하는 방법은?
① 가지치기
② 교차분석
③ 정준상관분석
④ t-검정

정답:
해설: 가지치기는 복잡한 나무의 불필요한 가지를 제거하여 과적합을 방지합니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다