[데이터마이닝] 12강. 군집분석 기초부터 완벽 정리

데이터마이닝 12강 — 군집분석 기초부터 완벽 정리

안녕하세요! 오늘은 데이터마이닝 12강: 군집분석 내용을 초보자분들도 쉽게 이해할 수 있도록 정리해보겠습니다. 군집분석(Cluster Analysis)은 데이터마이닝의 대표적인 비지도학습(Unsupervised Learning) 기법입니다. 사전 정보 없이 관측값이나 데이터를 서로 비슷한 성격끼리 묶는 기법으로, 타겟 마케팅이나 고객 세분화 등에 많이 활용됩니다.


1. 군집분석이란?

군집분석은 데이터 간의 유사성을 기준으로 개체들을 자동으로 묶는 방법입니다. 예를 들어, 쇼핑몰 고객 데이터를 군집분석하면 비슷한 구매 성향의 고객 그룹을 찾을 수 있습니다.

  • 자율학습 방법 (목표변수 X)

  • 같은 군집 내에서는 서로 비슷하고, 다른 군집 간에는 차이가 큼

  • 예: 타겟 마케팅, 고객 세분화, 이상치 탐지 등

※ 지도학습과의 차이
분류는 정답(라벨)이 있는 데이터로 학습, 군집분석은 라벨이 없는 데이터를 군집화

2. 비유사성 측도

군집분석에서는 개체 간 거리(비유사성)를 기준으로 묶습니다.
주요 거리 측정 방법은 아래와 같습니다.

유클리디안 거리

d(i,j)=(xi1xj1)2+(xi2xj2) d(i, j) = \sqrt{(x_{i1} – x_{j1})^2 + (x_{i2} – x_{j2})^2}

  • 두 점 사이 직선 거리

맨해튼 거리

d(i,j)=xi1xj1+xi2xj2d(i, j) = |x_{i1} – x_{j1}| + |x_{i2} – x_{j2}|

  • 가로세로 거리의 합

마할라노비스 거리

  • 데이터의 분산과 공분산까지 고려한 거리

  • 이상치 영향 적고 변수 간 상관관계 반영

코사인 거리

  • 다차원 공간에서 두 벡터 간 각도 기반 거리

  • 문서 유사도 분석에 많이 사용

3. 계층적 군집분석

군집수를 사전에 정하지 않고, 계층 구조로 군집을 형성하는 방법입니다.

종류

응집형(Agglomerative) : 개별 개체에서 시작해 점차 묶음
분할형(Divisive) : 전체를 시작으로 점차 분리

응집형 군집분석 방법

  • 단일연결법(Single Linkage) : 최소 거리

  • 완전연결법(Complete Linkage) : 최대 거리

  • 평균연결법(Average Linkage) : 평균 거리

  • 중심연결법(Centroid Linkage) : 중심점 거리

4. 비계층적 군집분석

군집 수(K)를 사전에 정하고 군집화하는 방법으로, 대용량 데이터에 적합

K-평균 군집분석(K-means Clustering)

  1. 군집 수 K 설정

  2. 임의로 K개 중심점 설정

  3. 각 데이터를 가장 가까운 중심점에 할당

  4. 새로 중심점 계산

  5. 변화가 없을 때까지 반복

K값 결정 방법

  • 엘보우(Elbow) 방법 : 군집 수별 평균 거리 그래프

  • 주성분 분석(PCA) 이용 : 주요 주성분을 이용해 군집 개수 탐색

5. 군집분석의 특징

장점 단점
사전 정보 없이 의미 있는 데이터 구조 도출 이상치에 민감
다양한 형태의 데이터 적용 가능 군집 수 결정 어려움
분석 방법 적용이 쉬움 변수 수가 많으면 해석이 어려움

※ 군집분석은 거리 기반이므로, 단위 차이의 영향이 크기 때문에 반드시 표준화 작업이 필요


객관식 문제

1. 두 점 사이의 직선 거리를 계산하는 방법은?
① 유클리디안 거리
② 맨해튼 거리
③ 코사인 거리
④ 마할라노비스 거리

정답:
해설: 유클리디안 거리는 두 점 사이의 직선 거리를 의미합니다.

2. K-평균 군집분석에서 군집 수를 결정하는 방법으로 올바른 것은?
① ROC 곡선
② 엘보우 방법
③ LOOCV 방법
④ AUC 값

정답:
해설: K값 결정에는 엘보우 방법이나 주성분 분석을 사용합니다.

3. 계층적 군집분석에서 군집 간 최소 거리를 기준으로 군집을 묶는 방법은?
① 완전연결법
② 평균연결법
③ 단일연결법
④ 중심연결법

정답:
해설: 단일연결법은 군집 간 가장 가까운 두 개체 간의 거리를 이용합니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다