데이터마이닝 모형 비교 평가 — 기초부터 쉽게 정리하기
안녕하세요. 오늘은 모형 비교 평가 내용을 기초부터 꼼꼼하게 정리해보겠습니다. 데이터 분석이나 인공지능을 공부하신다면, 모델의 성능을 객관적으로 평가하는 방법을 아는 것이 무척 중요합니다. 이 글에서는 초보자분들도 이해할 수 있도록 모형 평가의 개념, 지표, 데이터 분할 방법까지 자세히 설명해드릴게요.
1. 평가 모형이란?
데이터마이닝에서는 다양한 예측 모형을 만들어서 어떤 모형이 가장 예측을 잘하는지 비교합니다. 예를 들어, 학생의 성적을 예측한다고 할 때 선형회귀, 회귀나무, 신경망, 랜덤포레스트 등 여러 모델을 만든 후, 이들 중 가장 예측 성능이 좋은 것을 선택하는 것이죠.
-
연속형 목표변수: 숫자형 값 (예: 키, 몸무게, 점수)
-
선형회귀모형
-
회귀나무모형
-
신경망모형
-
-
이항형 목표변수: 두 가지 범주 (예: 합격/불합격, 구매/비구매)
-
로지스틱 회귀
-
분류나무
-
신경망
-
앙상블 (배깅, 부스팅, 랜덤포레스트)
-
2. 평가 지표 (Evaluation Metrics)
모델의 성능을 평가할 때는 단순히 ‘맞췄다, 틀렸다’뿐만 아니라 다양한 지표를 사용합니다.
연속형 목표변수의 지표
예측값과 실제값 사이의 차이를 계산하여 평가합니다.
주요 공식
-
MSE (Mean Squared Error) : 평균제곱오차
→ 값이 작을수록 예측이 잘된 것
-
MAE (Mean Absolute Error) : 평균절대오차
→ MSE와 마찬가지로 작을수록 좋음
산점도(Scatter Plot)에서 예측값과 실제값이 45도 대각선에 모여있으면 좋은 예측력을 의미합니다.
이항형 목표변수의 지표
범주형 목표변수의 경우에는 정오분류표(Confusion Matrix)를 만듭니다.
예측 1 | 예측 0 | 합계 | |
---|---|---|---|
실제 1 | n11 | n10 | n1+ |
실제 0 | n01 | n00 | n0+ |
합계 | n+1 | n+0 | n |
주요 지표 공식
-
민감도 (Sensitivity)
→ 실제 1인 것 중 1로 잘 맞춘 비율
-
특이도 (Specificity)
→ 실제 0인 것 중 0으로 잘 맞춘 비율
-
예측정확도 (Accuracy)
→ 전체 중 맞춘 비율
-
오분류율 (Error Rate)
→ 전체 중 틀린 비율
ROC 곡선과 AUC
임계치(threshold)에 따라 민감도와 특이도가 달라지므로, 다양한 임계치에 대해 민감도와 (1-특이도)를 그래프로 나타낸 것이 ROC 곡선입니다.
-
ROC 곡선 좌상단에 가까울수록 성능이 좋음
-
AUC (Area Under the Curve) 값이 클수록 예측력이 뛰어남
AUC 값이 0.5 이하면 의미 없는 예측, 1에 가까울수록 완벽한 예측
3. 데이터 분할을 통한 타당도 평가
데이터마이닝에서는 모델이 과적합(Overfitting)되는 것을 방지하고, 새로운 데이터에도 잘 작동하는지 확인하기 위해 데이터를 나눠 사용합니다.
-
훈련 데이터 (Train Data) : 모델 학습용
-
검증 데이터 (Test Data) : 모델 평가용
모델을 훈련데이터만으로 평가하면 너무 좋은 성능이 나올 수 있어, 새로운 검증데이터로 객관적으로 예측력을 평가합니다.
과적합 : 훈련 데이터에는 잘 맞지만, 새로운 데이터에는 성능이 낮은 현상
R 코드 예시
이번 강의에서는 R 코드가 따로 포함되어 있지 않았지만, 만약 위 내용을 R로 표현한다면 아래와 같이 코드를 작성할 수 있습니다.
코드 설명
-
actual
: 실제값 -
predicted
: 예측값 -
mean()
: 평균 -
(actual - predicted)^2
: 제곱오차 -
abs()
: 절대값
중요 내용 정리
-
데이터마이닝에서 모형을 평가하는 것은 예측력을 객관적으로 확인하는 핵심 과정
-
연속형 변수는 MSE, MAE로 평가
-
이항형 변수는 정오분류표, 민감도, 특이도, 정확도, 오분류율 활용
-
ROC 곡선, AUC로 민감도-특이도 관계 시각화 및 성능 종합 평가
-
과적합 방지를 위해 데이터를 훈련/검증 데이터로 분리
객관식 문제
1. 연속형 목표변수의 예측력을 평가할 때 사용하는 대표적인 지표는?
① 민감도, 특이도
② MSE, MAE
③ 정확도, 오분류율
④ AUC
정답: ②
해설: 연속형 데이터는 예측값과 실제값의 차이를 계산하는 MSE, MAE를 사용합니다.
2. 이항형 목표변수의 예측력을 평가할 때 정오분류표를 통해 계산하지 않는 것은?
① 민감도
② 특이도
③ AUC
④ MAE
정답: ④
해설: MAE는 연속형 변수에서 사용하며, 이항형에서는 정오분류표 기반의 민감도, 특이도, AUC 등을 활용합니다.
3. 데이터마이닝에서 과적합(Overfitting)을 방지하기 위해 사용하는 방법은?
① 같은 데이터로 훈련과 평가
② 훈련데이터와 검증데이터로 분리
③ 데이터 증강
④ 평균값 대체
정답: ②
해설: 과적합을 방지하려면 데이터를 훈련용과 검증용으로 나눠 객관적인 평가를 해야 합니다.