빅데이터분석기사 필기 데이터 이상값 처리 단원은 이상값의 정의, 유형, 탐색 기법(통계적·IQR·거리 기반·밀도 기반), 처리 기법(삭제·극단치 조정·대치)이 핵심 출제 영역입니다. 특히 IQR 계산 문제와 각 탐색 기법의 특징을 묻는 문제가 자주 출제됩니다. 빅데이터분석기사 합격을 위한 이상값 완전 정복을 지금 확인하세요.
시험 합격 전략 요약
이 단원에서 반드시 잡아야 할 포인트는 세 가지입니다.
- 이상값 vs 노이즈의 명확한 구분 — 이상값은 다른 메커니즘으로 생성된 의심스러운 데이터, 노이즈는 무작위 측정 오차
- IQR 공식과 이상값 경계 계산: 최솟값 = Q1 – 1.5×IQR, 최댓값 = Q3 + 1.5×IQR
- 이상값 처리 기법 3가지: 삭제(단일값·목록) / 극단치 기준 적용(기준 제거·절단·조정) / 대치(단순·다중)
극단치 조정(Winsorizing)과 절단(Trimming)의 차이가 자주 출제됩니다. Trimming은 제거, Winsorizing은 경계값으로 조정한다는 점이 핵심 구분입니다.
1단원: 이상값의 정의 & 이상값 vs 노이즈
초압축 암기 요약
- 이상값(Outlier) = 데이터의 나머지 부분과 상당히 다른 데이터 요소 집합, 관측된 데이터 범위에서 많이 벗어난 아주 작은 값이나 큰 값
- 이상값 유형: 점 이상값 / 상황적 이상값 / 집단적 이상값
- 이상값 발생 원인: 다른 클래스의 데이터 / 자연 변형(Natural variation) / 데이터 오류(실험 오류·측정 오류) / 고의적인 이상값
- 이상값 vs 노이즈: 이상값은 다른 메커니즘으로 생성된 의심스러운 데이터 / 노이즈는 관측 오류, 무작위적인 오차
초보자 이해용 상세 설명
정의
이상값(Outlier)이란 데이터의 나머지 부분과 상당히 다른 데이터 요소 집합으로, 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말합니다.
이상값 3가지 유형
점 이상값: 개별 데이터 포인트 하나가 나머지와 크게 다른 경우입니다.
상황적 이상값: 특정 상황이나 맥락에서만 이상값으로 판단되는 경우입니다.
집단적 이상값: 개별적으로는 정상이지만 집단적으로 모였을 때 이상값으로 판단되는 경우입니다.
이상값 발생 원인 4가지
다른 클래스의 데이터: 서로 다른 클래스(집단)의 데이터가 혼합된 경우입니다.
자연 변형(Natural variation): 자연적으로 발생하는 데이터의 변동성입니다.
데이터 오류(Data errors): 실험 오류(조건 상이)나 측정 오류로 인해 발생합니다.
고의적인 이상값: 의도적으로 삽입된 이상값입니다.
이상값과 노이즈의 차이
이상값은 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것인지 의심스러운 데이터입니다. 반면 노이즈는 관측 오류나 시스템에서 발생하는 무작위적인 오차로, 본래의 참값을 벗어나게 하는 오류입니다.
시험 출제 포인트
이상값과 노이즈의 차이를 묻는 문제가 자주 출제됩니다. 이상값 = 다른 메커니즘 의심, 노이즈 = 무작위 측정 오차로 명확히 구분해야 합니다.
시험 핵심 포인트
- 이상값 = 범위에서 크게 벗어난 아주 작거나 큰 값
- 이상값 3유형: 점 이상값 / 상황적 이상값 / 집단적 이상값
- 이상값 원인 4가지: 다른 클래스 / 자연 변형 / 데이터 오류 / 고의적 이상값
- 이상값 vs 노이즈: 이상값 = 다른 메커니즘 의심 / 노이즈 = 무작위 측정 오차
2단원: 이상값 탐색 기법
초압축 암기 요약
- 통계적 탐색: Z검정(Z-score로 표준정규분포 근사) / 카이제곱 검정(소규모 데이터 이상값 검정)
- 기타 통계적 탐색: 딕슨의 Q검정 / 그럽스 t검정 / Generalized ESD Test
- IQR 기반: Q1 – 1.5×IQR 이하 또는 Q3 + 1.5×IQR 이상이면 이상값
- 거리 기반: K-NN(k개 이웃 거리 기반 Novelty score 계산) / 마할라노비스 거리
- 밀도 기반: LOF(국소 밀도 비교) / DBSCAN / iForest
초보자 이해용 상세 설명
① 통계적 이상값 탐색 기법
Z검정(Z-Test): 표준화 점수(Z-score)를 이용하여 통계량의 분포를 표준정규분포로 근사할 수 있는 유의 수준을 정하고, 유의 수준을 벗어나는 값을 이상값으로 검출하는 방법입니다.
카이제곱 검정(Chi-Square Test): 데이터가 정규분포를 만족하나 자료의 수가 적은 경우에 이상값을 검정하는 방법입니다. 검정통계량은 자유도가 1인 카이제곱분포를 따르며, 통계량이 임계치보다 클 경우 이상값이 있다고 판단합니다.
② 사분위수 범위(IQR) 기반 탐색
사분위수(Quartile)란 전체 데이터를 100%로 보고 4개의 균등한 부분(25%, 50%, 75%, 100%)으로 분할한 각 등위에 해당하는 값입니다.
IQR(Interquartile Range)은 제3사분위수(Q3)에서 제1사분위수(Q1)를 뺀 값으로, 전체 자료의 중간 절반이 지니는 값의 범위입니다.
이상값 판단 기준: 최솟값(Q1 – 1.5×IQR) 미만이거나 최댓값(Q3 + 1.5×IQR) 초과하는 값을 이상값(극단치)으로 판단합니다.
③ 회귀진단(Regression Diagnostics) 기반 탐색
회귀 진단은 주어진 데이터 셋과 이 데이터 셋을 이용하여 추정한 회귀 모형 사이에 서로 일치하지 않는 점들을 찾아내는 과정입니다. 관련 지표로는 레버리지(Leverage), 표준화 잔차(Standardized Residual), 쿡의 거리(Cook’s Distance), DFFITS 등이 있습니다.
④ 거리 기반 이상값 탐색
K-최근접 이웃 알고리즘(K-NN): 각 데이터에 대해 근접한 k개의 가장 가까운 이웃 데이터까지의 거리를 계산하여 산출된 점수(Novelty score/Outlier score)가 다른 데이터들에 비해 크다면 이상값으로 판단하는 방법입니다.
마할라노비스 거리(Mahalanobis Distance): 데이터의 분포를 고려한 거리 측도로, 관측치가 평균으로부터 벗어난 정도를 측정하는 통계량입니다. 모든 변수 간에 선형 관계가 만족하고 각 변수들이 정규분포를 따르는 경우에 적용할 수 있는 전통적인 접근법입니다.
⑤ 밀도 기반 이상값 탐색
LOF(Local Outlier Factor): 국소적인(Local) 정보를 이용하여 이상값 정도를 나타내는 것을 목적으로, 관측치 주변의 밀도와 근접한 관측치 주변 밀도의 상대적 비교를 통해 이상값으로 탐지하는 기법입니다.
DBSCAN: 밀도와 최소 포인트 2가지 파라미터를 기반으로 코어와 보더로 분류하여 이상값을 도출하는 방법입니다.
iForest(Isolation Forest): 의사결정 트리를 이용하여 이상값을 탐지하는 방법입니다.
시험 출제 포인트
IQR 계산 공식과 이상값 경계값 계산이 출제됩니다. LOF는 ‘국소 밀도 비교’가 핵심 키워드이며, K-NN은 ‘Novelty score/Outlier score’로 이상값을 판단한다는 점이 출제 포인트입니다.
시험 핵심 포인트
- Z검정 = Z-score + 표준정규분포 + 유의 수준 기준
- 카이제곱 검정 = 소규모 데이터 이상값 검정
- IQR = Q3 – Q1
- 이상값 경계: Q1 – 1.5×IQR 미만 / Q3 + 1.5×IQR 초과
- K-NN = Novelty score/Outlier score로 이상값 판단
- 마할라노비스 = 분포 고려 + 정규분포 조건 필요
- LOF = 국소 밀도 상대 비교로 이상값 탐지
- DBSCAN = 밀도 + 최소 포인트 파라미터 기반
- iForest = 의사결정 트리 이용
3단원: 이상값 처리 기법
초압축 암기 요약
- 삭제(Deletion): 단일값 삭제 / 목록 삭제
- 극단치 기준 적용: 극단치 기준 제거 / 극단치 절단(Trimming) / 극단치 조정(Winsorizing)
- 대치(Imputation): 단순 대치법 / 다중 대치법
- 극단치 절단(Trimming): 특정 비율만큼 제거 (예: 10% 절단 = 상하단 각 5% 제거)
- 극단치 조정(Winsorizing): 극단치를 경계값으로 조정 → 데이터 손실 적음, 설명력 높음
초보자 이해용 상세 설명
극단치 기준 3가지
극단치 기준(Criteria) 제거: 극단치 경계(최댓값, 최솟값)를 벗어나는 이상값을 제거합니다.
극단치 절단(Trimming): 극단치 경계를 기준으로 특정 비율만큼 제거하는 방법입니다. 예를 들어 10% 절단은 상단 5%와 하단 5%에 해당하는 데이터를 제거합니다.
극단치 조정(Winsorizing): 상단과 하단의 극단치를 극단치 경계 값으로 조정하는 방법입니다. 데이터를 완전히 제거하지 않고 경계값으로 대체하므로 데이터 손실율이 적고 설명력도 높아집니다.
Trimming vs Winsorizing 핵심 비교
Trimming은 극단값을 아예 제거합니다. Winsorizing은 극단값을 경계값으로 교체(조정)합니다. 데이터 손실 측면에서 Winsorizing이 더 유리합니다.
시험 출제 포인트
Trimming과 Winsorizing의 차이가 핵심 출제 포인트입니다. Trimming = 제거, Winsorizing = 경계값으로 조정(유지)으로 명확히 구분해야 합니다. 또한 Winsorizing이 데이터 손실율이 적고 설명력이 높다는 장점도 암기해야 합니다.
시험 핵심 포인트
- 극단치 절단(Trimming) = 특정 비율 제거 (10% = 상하단 각 5%)
- 극단치 조정(Winsorizing) = 경계값으로 교체 (제거 아님)
- Winsorizing 장점: 데이터 손실 적음 + 설명력 높음
- 이상값 처리 3대 방법: 삭제 / 극단치 기준 적용 / 대치
- 극단치 = 논리적으로 존재할 수 있지만 극단적으로 크거나 작은 값
기본 확인문제 5문제
Q1. 다음 중 이상값(Outlier)과 노이즈(Noise)에 대한 설명으로 올바른 것은?
① 이상값은 무작위적인 측정 오차를 의미하고, 노이즈는 다른 메커니즘으로 생성된 의심스러운 데이터이다.
② 이상값은 다른 데이터와 크게 달라 다른 메커니즘에 의해 생성된 것인지 의심스러운 데이터이다.
③ 이상값과 노이즈는 동일한 개념이다.
④ 노이즈는 반드시 이상값에 포함된다.
Q2. IQR이 20이고 Q1이 30, Q3이 50일 때, 이상값 판단의 하한 경계값은?
① 0
② 5
③ -5
④ 10
Q3. 다음 중 LOF(Local Outlier Factor)에 대한 설명으로 올바른 것은?
① Z-score를 이용하여 표준정규분포로 이상값을 검출하는 방법이다.
② 국소적인 정보를 이용하여 관측치 주변의 밀도와 근접한 관측치 주변 밀도를 상대적으로 비교하여 이상값을 탐지한다.
③ k개의 이웃 데이터까지의 거리를 계산하여 이상값을 판단하는 방법이다.
④ 의사결정 트리를 이용하여 이상값을 탐지하는 방법이다.
Q4. 다음 중 극단치 조정(Winsorizing)에 대한 설명으로 올바른 것은?
① 극단치에 해당하는 데이터를 완전히 제거하는 방법이다.
② 상하단 특정 비율의 데이터를 제거하는 방법이다.
③ 상단과 하단의 극단치를 극단치 경계 값으로 조정하는 방법이다.
④ 결측값을 이상값의 평균으로 대치하는 방법이다.
Q5. 다음 중 이상값의 발생 원인이 아닌 것은?
① 다른 클래스의 데이터 혼합
② 자연 변형(Natural variation)
③ 데이터 정규화
④ 고의적인 이상값
기본문제 해설
Q1 정답: ②
이상값은 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것인지 의심스러운 데이터입니다. ①은 이상값과 노이즈의 설명이 반대로 서술되어 틀렸습니다.
Q2 정답: ①
하한 경계값 = Q1 – 1.5×IQR = 30 – 1.5×20 = 30 – 30 = 0입니다. 따라서 0 미만의 값이 이상값이 됩니다.
Q3 정답: ②
LOF는 국소적(Local) 정보를 이용하여 관측치 주변의 밀도와 근접한 관측치 주변 밀도를 상대적으로 비교하는 방법입니다. ①은 Z검정, ③은 K-NN, ④는 iForest의 설명입니다.
Q4 정답: ③
Winsorizing은 극단치를 완전히 제거하지 않고 극단치 경계값으로 조정하는 방법입니다. ①②는 Trimming의 설명입니다.
Q5 정답: ③
데이터 정규화는 데이터 전처리 기법 중 하나로, 이상값의 발생 원인이 아닙니다. 이상값 발생 원인은 다른 클래스의 데이터, 자연 변형, 데이터 오류, 고의적인 이상값입니다.
고난도 확인문제 3문제
HQ1. 다음 데이터에서 IQR 기준으로 이상값에 해당하는 값을 모두 고른 것은?
데이터: 5, 8, 10, 12, 15, 18, 20, 25, 100
Q1 = 9, Q3 = 22, IQR = 13
① 5
② 100
③ 5와 100
④ 이상값 없음
HQ2. 다음 중 이상값 탐색 기법과 그 설명이 올바르게 연결된 것을 모두 고른 것은?
(가) Z검정 — Z-score를 이용하여 표준정규분포 기반으로 유의 수준을 벗어나는 값을 이상값으로 검출
(나) LOF — 두 관측치 사이의 거리를 측정하여 값이 크다면 이상값으로 탐지
(다) K-NN — 각 데이터에서 k개의 가장 가까운 이웃까지의 거리를 계산하여 Novelty score가 크면 이상값으로 판단
(라) iForest — 의사결정 트리를 이용하여 이상값 탐지
① (가), (다), (라)
② (가), (나), (다)
③ (나), (다), (라)
④ (가), (나), (다), (라)
HQ3. 다음 중 극단치 처리 기법에 대한 설명으로 틀린 것은?
① 극단치 절단(Trimming)에서 10% 절단은 상단 5%와 하단 5%에 해당하는 데이터를 제거한다.
② 극단치 조정(Winsorizing)은 데이터를 완전히 제거하지 않고 경계값으로 대체하므로 데이터 손실율이 적다.
③ 극단치 기준(Criteria) 제거는 극단치 경계를 벗어나는 이상값을 제거하는 방법이다.
④ Winsorizing은 데이터를 제거하기 때문에 Trimming보다 설명력이 낮다.
고난도 해설 (풀이과정 포함)
HQ1 정답: ②
풀이: IQR = Q3 – Q1 = 22 – 9 = 13. 하한 경계 = Q1 – 1.5×IQR = 9 – 1.5×13 = 9 – 19.5 = -10.5. 상한 경계 = Q3 + 1.5×IQR = 22 + 1.5×13 = 22 + 19.5 = 41.5. -10.5 미만이거나 41.5 초과하는 값이 이상값입니다. 데이터 중 100이 41.5를 초과하므로 이상값입니다. 5는 -10.5보다 크므로 정상 범위입니다. 정답 ②.
HQ2 정답: ①
풀이: (가) Z검정의 설명으로 정확합니다 → 맞습니다. (나) “두 관측치 사이의 거리를 측정”은 LOF가 아닌 거리 기반(K-NN·마할라노비스) 탐색 기법의 설명입니다. LOF는 국소 밀도 비교가 핵심입니다 → 틀린 연결. (다) K-NN의 설명으로 정확합니다 → 맞습니다. (라) iForest의 설명으로 정확합니다 → 맞습니다. 따라서 올바른 것은 (가), (다), (라) → 정답 ①.
HQ3 정답: ④
풀이: ①②③은 모두 정확한 설명입니다. ④ Winsorizing은 데이터를 제거하는 것이 아니라 경계값으로 조정(대체)합니다. 따라서 Trimming(제거)보다 데이터 손실율이 낮고 설명력이 높습니다. ④의 “데이터를 제거하기 때문에”라는 표현이 틀렸습니다. 정답 ④.
이상값 탐색 기법 요약표
| 분류 | 기법 | 핵심 키워드 |
|---|---|---|
| 통계적 | Z검정 | Z-score, 표준정규분포, 유의 수준 |
| 통계적 | 카이제곱 검정 | 소규모 데이터, 카이제곱분포, 임계치 |
| IQR 기반 | 사분위수 범위 | Q1-1.5×IQR / Q3+1.5×IQR |
| 거리 기반 | K-NN | k개 이웃 거리, Novelty/Outlier score |
| 거리 기반 | 마할라노비스 | 분포 고려, 정규분포 조건 필요 |
| 밀도 기반 | LOF | 국소 밀도 상대 비교 |
| 밀도 기반 | DBSCAN | 밀도+최소 포인트 파라미터, 코어/보더 |
| 밀도 기반 | iForest | 의사결정 트리 |
| 처리 기법 | 방법 | 특징 |
|---|---|---|
| 극단치 기준 제거 | 경계 초과 이상값 제거 | 경계값 기준 단순 제거 |
| 극단치 절단(Trimming) | 특정 비율만큼 제거 | 10% = 상하단 각 5% 제거 |
| 극단치 조정(Winsorizing) | 경계값으로 대체 | 손실 적음, 설명력 높음 |
마무리 정리
3편에서는 이상값의 정의·유형·발생 원인, 다양한 탐색 기법(통계적·IQR·거리·밀도 기반), 처리 기법(삭제·극단치 기준·대치)까지 단원 전체를 완벽하게 정리했습니다. 1편(데이터 전처리·정제), 2편(결측값 처리)과 함께 반복 학습하면 데이터 정제 단원 고득점을 달성할 수 있습니다.
