데이터마이닝 04강 | 의사결정나무 개념부터 분할방법까지 완전정리
이번 시간에는 데이터마이닝의 대표적인 분석기법인 의사결정나무(Decision Tree)에 대해 정리합니다.
이 기법은 복잡한 데이터 속에서 간결한 의사결정 규칙을 도출해 분류 또는 예측 문제를 해결하는 방법입니다.
의사결정나무란?
데이터를 나무(tree) 형태로 분할해가며 분석하는 기법으로,
-
결과변수가 범주형 → 분류나무(Classification Tree)
-
결과변수가 수치형 → 회귀나무(Regression Tree)
로 나눌 수 있습니다.
활용 목적
-
분류 : 카드발급 승인 여부
-
예측 : 월 평균 카드 사용액
-
변수선택, 등급화, 고객 세분화에도 활용
의사결정나무의 역사
시기 | 방법 | 특징 |
---|---|---|
1964 | AID | 최초의 교호작용 탐색 |
1973 | THAID | AID 개량 |
1980 | CHAID | 카이제곱기반 분할 |
1984 | CART | 분류·회귀 가능 |
1983 | C4.5 | 엔트로피 기반, 다중 분할 가능 |
2006 | CTREE | 조건부추론 활용 |
의사결정나무 장단점
장점
-
변수 형태 관계 없이 사용 가능
-
해석 용이
-
교호작용 쉽게 포착
-
결측치 처리 가능
-
예측이 빠르고 간편
단점
-
과하게 단순화 가능
-
데이터에 민감, 불안정
-
분할점의 경직성
분류의사결정나무의 분할방법
CART 방식
지니지수(Gini Index)로 불순도를 측정해
분할개선도가 가장 높은 분할 기준을 선택
-
지니지수 값이 작을수록 순수
-
지니지수 감소량 = 분할개선도
범주형 변수의 경우 가능한 모든 부분집합으로 분할
연속형 변수는 모든 분할점 후보를 검사해 개선도 최대값 선택
C4.5 방식
엔트로피(Entropy) 기반 불순도 함수 사용
분할개선도 = 엔트로피 감소량 = 정보이득(Information Gain)
의사결정나무 크기선택
분할 정지방법
-
매 단계 통계적 유의성 검정
-
유의하지 않으면 분할 중단
가지치기방법
-
일단 계속 분할 후
-
과적합 방지 위해 부적절한 마디 제거
비용복잡함수
-
: 벌점계수
-
|T| : 마디 개수
-
가장 낮은 비용복잡도 가지는 나무 선택
회귀의사결정나무의 분할방법
불순도 함수 대신 분산 함수(variance) 사용
연속형 결과변수에서 분할 시 각 그룹의 분산을 최소화하는 분할점 선택
중요내용 정리
-
의사결정나무는 분류나 예측 문제를 나무구조로 분석하는 기법
-
CART → 지니지수, C4.5 → 엔트로피 사용
-
가지치기로 과적합 방지
-
분할정지방법과 비용복잡함수로 크기 결정
-
회귀나무는 분산 최소화 방식
객관식 문제 & 해설
Q1. CART 모형의 분할 기준으로 사용하는 불순도 함수는?
① 엔트로피
② 지니지수
③ R²
④ 오즈비
정답: ②
해설: CART는 지니지수를 통해 노드의 순수도를 측정하여 분할합니다.
Q2. C4.5 의사결정나무에서 불순도를 측정하는 함수는?
① 분산
② 지니지수
③ 엔트로피
④ 오분류율
정답: ③
해설: C4.5는 엔트로피 기반 정보이득을 활용해 분할 기준을 결정합니다.
Q3. 의사결정나무의 과적합 방지를 위해 사용하는 방법은?
① 가지치기
② 교차분석
③ 정준상관분석
④ t-검정
정답: ①
해설: 가지치기는 복잡한 나무의 불필요한 가지를 제거하여 과적합을 방지합니다.