[데이터마이닝] 1강. 데이터마이닝 기초 개념

데이터마이닝이란?

데이터마이닝이란 무엇인가요?

데이터마이닝(data mining)은 대량의 데이터 속에서 의미 있는 패턴이나 규칙을 찾아내어 유용한 지식을 얻는 과정을 말합니다.
최근 데이터가 급격히 많아지면서, 단순히 데이터를 저장하는 것에 그치지 않고, 데이터를 분석하여 가치를 창출하는 일이 매우 중요해졌습니다.

예를 들어, 수천 명 고객의 구매 기록 속에서 ‘이 고객은 신제품을 좋아하는구나’라는 사실을 찾아내는 것도 데이터마이닝입니다.

데이터 분석 방법에는 어떤 것들이 있나요?

데이터 분석 방법은 크게 두 가지로 나눌 수 있습니다.

접근방법 설명 장점 단점 예시
모수적 모형 접근법 수학식으로 관계를 정의하고, 그 값을 추정 해석이 쉽고 직관적 복잡한 데이터에 부적합 선형회귀, 로지스틱 회귀
알고리즘 접근법 데이터 속 규칙을 자동으로 찾아냄 복잡한 데이터에도 활용 가능 과적합 가능성, 해석 어려움 의사결정나무, 랜덤포레스트

데이터마이닝의 특징

데이터마이닝은 다음과 같은 특징이 있습니다.

  • 대량의 데이터를 분석

  • 컴퓨터 중심으로 분석 진행

  • 경험적 방법 사용

  • 일반화(generalization) 가능
    → 새 데이터에도 잘 맞는 모형을 개발할 수 있음

  • 다양한 분야에 적용 가능

데이터마이닝과 관련된 분야

데이터마이닝과 함께 알아두면 좋은 주요 개념들을 정리해보겠습니다.

  • KDD (Knowledge Discovery in Database) : 데이터베이스 안에서 유용한 지식을 찾아내는 과정

  • 기계학습 (Machine Learning) : 데이터로부터 컴퓨터가 스스로 학습

  • 패턴인식 (Pattern Recognition) : 데이터 속에서 일정한 규칙이나 패턴을 찾는 기술

  • 통계학 (Statistics) : 데이터 분석과 예측모형의 전통적 기반

데이터마이닝 기법 구분

데이터마이닝 기법은 지도학습비지도학습으로 나뉩니다.

기법 설명
지도학습 (Supervised Learning) 데이터에 정답(출력값)이 있어 그 값을 예측하는 방식
비지도학습 (Unsupervised Learning) 정답 없이 데이터의 패턴이나 군집을 찾는 방식

데이터마이닝 수행 단계

데이터마이닝은 보통 다음과 같은 단계로 진행됩니다.

  1. 문제 정의

  2. 데이터 수집

  3. 데이터 정제

  4. 데이터 탐색

  5. 모델링

  6. 모델 평가

  7. 결과 해석 및 적용

데이터마이닝 활용 사례

분야 활용 내용
고객관계관리 고객 세분화, 이탈 분석, 교차판매
신용평가 과거 거래내역으로 신용등급 산정
제조업 불량품 판별, 공정 개선
부정행위 적발 카드 사기, 보험 사기 탐지
이미지 분석 의료영상 판독, 문자 인식
생명정보학 유전자 분석, 질병 예측

R을 활용한 데이터마이닝 실습

R이란?

R은 통계분석, 데이터마이닝, 그래프 작성 등을 위한 무료 오픈소스 데이터 분석용 프로그램입니다.

R 공식사이트 바로가기

R 패키지(Package)란?

패키지란 특정 분석을 수행할 수 있도록 만들어진 함수, 데이터, 설명서의 모음입니다.

설치 방법 :

1
2
install.packages(“패키지명”)
library(패키지명)
cs

실습 데이터 소개

  • 의류 생산성 데이터(Productivity Prediction of Garment Employees)
    → 의류공장에서 생산성 측정한 데이터
    → 이상치 제거 후 불필요 변수 삭제

  • 와인 품질 데이터(Wine Quality Data)
    → 와인 품질을 0(보통), 1(우수)로 나눈 데이터
    → 이상치 제거 후 분석

R 코드 예제 : 변수형 변환

데이터 분석을 위해 문자형 데이터를 범주형으로 변환하는 작업이 필요합니다.

1
2
# 문자형 gender 변수를 범주형으로 변환
data$gender <- factor(data$gender)
cs

그리고 수치형으로 변환할 때는 as.numeric() 함수를 사용합니다.

1
2
# score 변수를 수치형으로 변환
data$score <- as.numeric(data$score)
cs

가변수(dummy 변수) 생성을 위해서는 dummy 패키지를 사용합니다.

1
2
install.packages(“dummy”)
library(dummy)
cs

중요내용 정리

  • 데이터마이닝은 데이터 속에서 유의미한 정보를 찾아내는 과정입니다.

  • 분석 접근법은 모수적 방법알고리즘 방법으로 구분됩니다.

  • 지도학습비지도학습 기법이 있으며, 실무에서는 R을 많이 활용합니다.

  • 데이터 전처리 과정에서 이상치 제거, 변수 변환이 중요합니다.

  • R에서는 factor(), as.numeric() 함수, dummy 패키지를 자주 활용합니다.


객관식 문제 & 해설

Q1. 데이터마이닝의 정의로 적절한 것은?
① 데이터 저장 기법
② 데이터에서 의미 있는 정보를 추출하는 과정
③ 데이터 삭제 과정
④ 데이터베이스 관리 기법

정답:
해설: 데이터마이닝은 데이터 속 패턴과 규칙을 찾아내는 작업입니다.

Q2. 지도학습에 해당하는 분석 기법은?
① 군집분석
② 선형회귀
③ 주성분분석
④ 연관규칙분석

정답:
해설: 선형회귀는 입력값과 정답을 학습하는 지도학습 방법입니다.

Q3. R에서 factor() 함수의 목적은?
① 수치형 데이터를 더하기 위해
② 범주형 변수를 정의하기 위해
③ 결측치를 제거하기 위해
④ 새로운 패키지를 설치하기 위해

정답:
해설: factor() 함수는 R에서 범주형 변수를 설정할 때 사용합니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다