데이터마이닝 14강 — 연관성 분석 쉽게 정리
안녕하세요! 이번 포스팅에서는 연관성 분석(Association Analysis) 내용을 초보자분도 이해할 수 있도록 풀어 정리해보겠습니다.
특히 장바구니 분석(Market Basket Analysis)에서 많이 활용되는 분석기법으로, 품목 간의 구매 패턴을 찾고 마케팅 전략을 세울 때 아주 유용합니다.
1. 연관성 분석이란?
연관성 분석이란 하나의 사건 또는 품목이 발생했을 때, 다른 사건이나 품목이 얼마나 자주 동시에 발생하는지 분석하는 방법입니다.
쉽게 말해, 어떤 고객이 A를 샀을 때 B도 함께 사는지를 확인하는 거죠.
예:
-
‘쌀을 산 고객이 상추를 살 확률’
-
‘맥주와 과자가 함께 팔리는 빈도’
자율학습(Unsupervised Learning)의 한 종류로, 목표변수 없이 변수 간의 조합으로 관계를 찾습니다.
2. 연관성 분석 지표 정리
연관성 분석에서는 대표적으로 3가지 지표를 사용합니다.
(1) 지지율(Support)
전체 거래 중 A와 B가 동시에 포함된 거래의 비율
예) 전체 100건 중 A와 B가 함께 팔린 경우가 5건이면
특징: 너무 적으면 통계적으로 의미 없는 규칙일 수 있음
(2) 신뢰도(Confidence)
A를 구매한 거래 중, B가 함께 구매된 비율
조건부 확률로,
의 개념
주의: ‘A → B’와 ‘B → A’의 신뢰도 값은 다름
(3) 향상도(Lift)
신뢰도가 우연히 발생한 것이 아닌지 판단하기 위한 지표
연관규칙이 없을 때의 기대값과 비교하여 관계의 강도를 확인
혹은
-
1보다 크면 A와 B가 양의 상관관계
-
1이면 독립
-
1보다 작으면 음의 상관관계
3. 연관성 분석의 절차
① 품목과 분석 수준 결정
품목의 수가 너무 많으면 연관규칙 수가 폭발적으로 증가하므로, 의미 있는 품목군으로 정리
② 연관규칙 생성
지지율과 신뢰도의 하한값을 정하고 규칙을 생성.
시차 연관성분석도 가능 (구매 순서 고려)
③ 유용한 규칙 선정 및 해석
향상도까지 확인해 우연한 관계인지 아닌지 판단하고, 의미 있는 규칙만 선택
4. 연관성 분석의 장단점
장점 | 단점 |
---|---|
규칙이 직관적이고 쉽게 적용 가능 | 품목 수 증가 시 계산량 급증 |
목표변수 없이 탐색 분석 가능 | 연속형 변수 분석 어려움 |
계산이 단순하고 빠름 | 품목 분류나 규칙 해석에 시간 소요 |
객관식 문제
1. 연관규칙 ‘A→B’에서 A를 구매했을 때 B가 구매될 확률은?
① 지지율
② 신뢰도
③ 향상도
④ 조건부 확률
정답: ②
해설: 신뢰도는 A가 발생했을 때 B가 발생할 조건부 확률입니다.
2. 향상도 값이 1보다 크면 어떤 의미인가?
① A와 B가 독립적이다
② A가 B의 발생 가능성을 높인다
③ A와 B는 음의 상관관계
④ 의미 없는 관계다
정답: ②
해설: 향상도가 1보다 크면 양의 상관관계를 의미합니다.
3. 연관성분석의 대표적인 활용 분야로 올바른 것은?
① 고객군집
② 장바구니 분석
③ 이상치 탐지
④ 회귀분석
정답: ②
해설: 연관성분석은 주로 장바구니 분석(Market Basket Analysis)에 활용됩니다.