빅데이터분석기사 필기 데이터 결측값 처리 단원은 결측값의 유형(MCAR·MAR·NMAR), 처리 절차, 삭제법(단일값·목록 삭제), 대치법(단순·다중)이 핵심 출제 영역입니다. 이 글에서는 각 개념을 초보자도 이해할 수 있도록 완벽 정리하고 기출 유형 문제와 해설까지 제공합니다. 빅데이터분석기사 합격을 위한 결측값 완전 정복을 지금 시작하세요.
시험 합격 전략 요약
이 단원의 핵심 출제 포인트는 세 가지입니다.
- 결측값 3가지 유형(MCAR·MAR·NMAR) — 각 정의와 예시를 정확히 연결
- 삭제법 2종류: 단일값 삭제(Pairwise) vs 목록 삭제(Listwise)의 차이
- 다중 대치법 3단계 절차: 대치(Imputation) → 분석(Analysis) → 결합(Combination)
특히 NMAR(비무작위 결측)은 통계적 방법으로 대체할 수 있는 모델이 없다는 점이 시험에 자주 출제됩니다. 혼동하기 쉬운 MCAR과 MAR의 차이도 반드시 구분해야 합니다.
1단원: 결측값의 정의와 처리 절차
초압축 암기 요약
- 결측값(Missing Value) = 값이 존재하지 않고 비어있는 상태
- 표현 방식: NA(Not Available·기록 안 됨) / NaN(Not a Number·수학적으로 정의되지 않은 값) / inf(무한대) / NULL(값이 비었음)
- 처리 절차 3단계: 결측값 식별(Identify) → 결측값 부호화(Encode) → 결측값 처리(Impute)
- Raw Data → Working Data → Tidy Data 순서로 변환
초보자 이해용 상세 설명
정의
결측값이란 값이 존재하지 않고 비어있는 상태로, 해당 속성값이 Na, NaN, Inf, Null 등으로 표현됩니다.
결측값 표현 방식 4가지
NA(Not Available): 기록되지 않은 값입니다. 주로 R 언어에서 사용합니다.
NaN(Not a Number): 수학적으로 정의되지 않은 값입니다. 0을 0으로 나누면 NaN이 됩니다.
inf(infinite): 무한대를 의미합니다. 어떤 값을 0으로 나누면 무한대가 됩니다.
NULL: 값 자체가 비어있음을 의미합니다.
처리 절차
결측값은 세 단계로 처리합니다. 먼저 원본 데이터(Raw Data)에서 결측값을 식별(Identify Missing Value)합니다. 다음으로 작업 데이터(Working Data)에서 결측값을 NA, NaN 등으로 부호화(Encode Missing Value)합니다. 마지막으로 깔끔한 데이터(Tidy Data)를 만들기 위해 결측값을 처리(Impute Missing Value)합니다.
시험 출제 포인트
처리 절차의 순서(식별 → 부호화 → 처리)와 각 단계의 데이터 명칭(Raw Data → Working Data → Tidy Data)이 출제됩니다.
시험 핵심 포인트
- 결측값 표현: NA / NaN / inf / NULL 4가지
- NA = Not Available = 기록 안 됨
- NaN = Not a Number = 수학적으로 정의되지 않은 값
- 처리 절차: 식별 → 부호화 → 처리
- Raw Data → Working Data → Tidy Data
2단원: 결측값의 유형 (MCAR·MAR·NMAR)
초압축 암기 요약
- MCAR(완전 무작위 결측): 결측값이 다른 변수들과 아무런 상관 없는 경우
- MAR(무작위 결측): 결측값이 다른 변수와 연관이 있어 발생했지만 그 변수 자체가 결과에 영향을 미치지 않는 경우
- NMAR(비무작위 결측): 결과에 영향이 있는 변수 때문에 결측값이 발생, 결측값이 결과에 영향을 미치는 경우
- MCAR·MAR → 단순 대치법 또는 다중 대치법 사용 가능
- NMAR → 통계적 방법으로 대체할 수 있는 모델 없음
초보자 이해용 상세 설명
① MCAR — 완전 무작위 결측 (Missing Completely At Random)
결측값이 다른 어떤 변수와도 전혀 상관없이 무작위로 발생하는 경우입니다.
예시: 전체의 나이가 필수값인 시스템이 있는데, 시스템 오류로 일부 값이 누락된 경우입니다. 누락은 나이 자체와도, 다른 변수와도 전혀 관계없이 발생한 것입니다.
② MAR — 무작위 결측 (Missing At Random)
결측값이 다른 변수와 연관이 있어 발생했지만, 그 변수 자체가 분석 결과에는 영향을 미치지 않는 경우입니다.
예시: 여성은 나이를 공개할 가능성이 적습니다. 즉 ‘성별’이라는 변수와 ‘나이 결측’이 연관되어 있지만, 여성과 나이 자체는 직접적 관련이 없습니다.
③ NMAR — 비무작위 결측 (Not Missing At Random)
결과에 영향이 있는 변수 때문에 결측값이 발생하는 경우입니다. 결측값 자체가 결과에 영향을 미칩니다.
예시: 키가 작은 사람은 몸무게를 공개할 가능성이 적습니다. 즉 키(결측 원인)와 결측 여부가 직접 연관되며, 결측값이 있는 경우 키가 평균보다 작을 확률이 높습니다.
시험 출제 포인트
NMAR은 “통계적인 방법으로 데이터를 대체할 수 있는 모델은 없음”이라는 점이 가장 중요한 출제 포인트입니다. 또한 세 유형의 약자와 한국어 명칭을 정확히 연결하는 문제가 출제됩니다.
시험 핵심 포인트
- MCAR = 완전 무작위 결측 = 다른 변수와 아무 상관 없음
- MAR = 무작위 결측 = 다른 변수와 연관 있지만 결과에 영향 없음
- NMAR = 비무작위 결측 = 결측값이 결과에 직접 영향
- NMAR → 통계적 대체 모델 없음 (가장 처리 어려운 유형)
- MCAR·MAR → 단순 대치법 또는 다중 대치법으로 처리 가능
3단원: 결측값 처리 기법 — 삭제 & 대치
초압축 암기 요약
삭제(Deletion)
- 단일값 삭제(Pairwise Deletion): 결측값 자체만 삭제, 다른 변수는 유지. 일관성 없음
- 목록 삭제(Listwise Deletion): 결측 발생한 행 또는 열 전체 삭제. 정보 손실 발생, 편향 가능
대치(Imputation)
- 단순 대치법(Simple Imputation): 특정 대표값(평균, 최빈값, 중앙값, 회귀식)으로 대치
- 다중 대치법(Multiple Imputation): m번 반복 → m개 데이터셋 생성 → 결합. 과소추정 문제 낮춤
- 다중 대치법 3단계: 대치(Imputation Step) → 분석(Analysis Step) → 결합(Combination Step)
초보자 이해용 상세 설명
삭제법 2종류
단일값 삭제(Pairwise Deletion)는 결측값 자체만 삭제하고 다른 변수(속성)는 그대로 유지하는 방법입니다. 결측 데이터가 다른 특성을 가지고 있어 일관성이 없다는 단점이 있습니다.
목록 삭제(Listwise Deletion)는 결측이 발생한 데이터가 포함된 행 혹은 열 전체를 삭제하는 방법입니다. 다른 변수가 가진 정보 손실이 발생하고 편향이 생길 수 있습니다.
단순 대치법 종류
완전 분석법(Complete Analysis): 결측값이 있는 레코드를 삭제하고 완전한 자료만 사용합니다. 목록 삭제법과 동일하며 편향이 발생할 수 있습니다.
평균 대치법(Mean Imputation): 비조건부 평균 대치법은 관측 데이터의 평균으로 대치합니다. 조건부 평균 대치법은 회귀분석을 활용하여 예측값으로 대치합니다.
단순 확률 대치법(Single Stochastic Imputation):
핫덱 대치(Hot-deck) — 비슷한 집단 내 임의의 개체로 결측값을 대체합니다.
콜드덱 대치(Cold-deck) — 외부에서 개체를 선택하여 대체합니다.
근접 이웃 대치(Nearest Neighbor) — 범주형은 최빈값, 연속형은 중앙값으로 대치합니다.
다중 대치법 절차
단순 대치법을 m번 수행하여 m개의 가상적 완전 자료를 만든 후, 각각 분석하고 결과를 결합하는 방법입니다. 과소추정 문제를 낮출 수 있습니다.
1단계(대치): 결측값을 포함한 자료에서 m개의 대치된 데이터셋 생성
2단계(분석): 각 데이터셋을 별도로 분석하여 m개의 결과 도출
3단계(결합): m개의 결과를 통합하여 최종 결론 도출
시험 출제 포인트
다중 대치법의 3단계 순서(대치→분석→결합)와 과소추정 문제를 낮춘다는 특징이 자주 출제됩니다. 핫덱과 콜드덱의 차이(내부 vs 외부 개체 선택)도 중요합니다.
시험 핵심 포인트
- 단일값 삭제 = 결측값만 삭제, 나머지 변수 유지, 일관성 없음
- 목록 삭제 = 결측 포함 행/열 전체 삭제, 정보 손실·편향 발생
- 단순 대치법 = 평균·최빈값·중앙값·회귀식 등으로 대치
- 핫덱 = 내부(현재 연구 중인 유사 집단)에서 대체
- 콜드덱 = 외부에서 개체 선택하여 대체
- 근접 이웃 대치: 범주형 → 최빈값 / 연속형 → 중앙값
- 다중 대치법 3단계: 대치 → 분석 → 결합
- 다중 대치법 장점: 과소추정 문제 낮춤
기본 확인문제 5문제
Q1. 다음 중 결측값의 표현 방식과 의미가 올바르게 연결된 것은?
① NA — 수학적으로 정의되지 않은 값
② NaN — 기록되지 않은 값
③ inf — 무한대
④ NULL — Not Available의 약자
Q2. 다음 중 NMAR(비무작위 결측)에 대한 설명으로 올바른 것은?
① 결측값이 다른 변수들과 아무런 상관관계가 없는 경우이다.
② 결측값이 다른 변수와 연관이 있지만 결과에 영향을 미치지 않는 경우이다.
③ 결과에 영향이 있는 변수 때문에 결측값이 발생하며 결측값이 결과에 영향을 미치는 경우이다.
④ 통계적 방법으로 쉽게 대체 가능한 결측 유형이다.
Q3. 결측값 처리 절차를 올바른 순서로 나열한 것은?
① 결측값 부호화 → 결측값 식별 → 결측값 처리
② 결측값 식별 → 결측값 처리 → 결측값 부호화
③ 결측값 처리 → 결측값 식별 → 결측값 부호화
④ 결측값 식별 → 결측값 부호화 → 결측값 처리
Q4. 다음 중 목록 삭제(Listwise Deletion)에 대한 설명으로 올바른 것은?
① 결측값 자체만 삭제하고 다른 변수는 그대로 유지한다.
② 결측이 발생한 데이터가 포함된 행 또는 열 전체를 삭제한다.
③ 정보 손실 없이 처리할 수 있다는 장점이 있다.
④ 일관성을 유지할 수 있다는 장점이 있다.
Q5. 다음 중 다중 대치법(Multiple Imputation)의 절차를 올바른 순서로 나열한 것은?
① 분석 → 대치 → 결합
② 결합 → 대치 → 분석
③ 대치 → 분석 → 결합
④ 대치 → 결합 → 분석
기본문제 해설
Q1 정답: ③
inf는 infinite의 약자로 무한대를 의미합니다. NA는 Not Available(기록 안 됨), NaN은 Not a Number(수학적으로 정의되지 않은 값), NULL은 값이 비었음을 의미합니다.
Q2 정답: ③
NMAR은 결과에 영향이 있는 변수 때문에 결측값이 발생하며 결측값 자체가 결과에 영향을 미치는 경우입니다. ①은 MCAR, ②는 MAR의 설명이고, ④는 반대로 NMAR은 통계적 대체 모델이 없습니다.
Q3 정답: ④
결측값 처리 절차는 식별(Identify) → 부호화(Encode) → 처리(Impute) 순서입니다. Raw Data → Working Data → Tidy Data로 변환됩니다.
Q4 정답: ②
목록 삭제(Listwise Deletion)는 결측이 발생한 행 또는 열 전체를 삭제합니다. ①은 단일값 삭제(Pairwise Deletion)의 설명입니다. ③④ 목록 삭제는 정보 손실과 편향이 발생한다는 단점이 있습니다.
Q5 정답: ③
다중 대치법 3단계: 대치(Imputation Step) → 분석(Analysis Step) → 결합(Combination Step) 순서입니다.
고난도 확인문제 3문제
HQ1. 다음 상황에서 적용되는 결측값 유형이 올바르게 짝지어진 것은?
(가) 여성 응답자들이 나이를 공개하지 않는 경향이 있어 나이 데이터가 결측됨. 성별과 나이 결측이 연관되지만 여성과 나이 자체는 분석 결과에 영향 없음.
(나) 키가 작은 사람들이 몸무게를 공개하지 않아 결측 발생. 결측값이 있는 경우 키가 평균보다 작을 확률이 높음.
(다) 시스템 오류로 일부 사용자의 트랜잭션 수가 무작위로 누락됨. 다른 어떤 변수와도 관계 없음.
① (가) MCAR / (나) MAR / (다) NMAR
② (가) MAR / (나) NMAR / (다) MCAR
③ (가) NMAR / (나) MAR / (다) MCAR
④ (가) MAR / (나) MCAR / (다) NMAR
HQ2. 다음 중 결측값 대치법에 대한 설명으로 틀린 것은?
① 핫덱(Hot-deck) 대치는 현재 진행 중인 연구 내 유사 집단에서 임의의 개체를 선택하여 결측값을 대체한다.
② 콜드덱(Cold-deck) 대치는 외부에서 개체를 선택하여 결측값을 대체한다.
③ 근접 이웃(Nearest Neighbor) 대치에서 결측값이 범주형인 경우 중앙값으로 대치한다.
④ 다중 대치법은 단순 대치법을 m번 수행하여 m개의 가상적 완전 자료를 만든 후 결합한다.
HQ3. 조건부 평균 대치법에 대한 다음 설명에서 빈칸에 들어갈 내용으로 올바른 것은?
“조건부 평균 대치법은 ( )을 활용한 대치법으로, 예를 들어 공부 시간(X)에 따른 시험 점수(Y)를 분석하는 선형회귀모형이 있을 때, 누락된 점수를 Y = X·β₁ + β₀ 공식으로 예측하여 대치한다.”
① K-최근접 이웃 알고리즘
② 회귀분석
③ 핫덱 대치
④ 다중 대치법
고난도 해설 (풀이과정 포함)
HQ1 정답: ②
풀이: (가) 성별과 나이 결측이 연관되지만 분석 결과에 영향 없음 → MAR(무작위 결측). (나) 키가 작을수록 몸무게 결측 발생 → 결측값이 결과에 영향을 미침 → NMAR(비무작위 결측). (다) 다른 변수와 전혀 관계없는 무작위 누락 → MCAR(완전 무작위 결측). 따라서 (가) MAR / (나) NMAR / (다) MCAR → 정답 ②.
HQ2 정답: ③
풀이: ①②④는 모두 정확한 설명입니다. ③ 근접 이웃 대치에서 결측값이 범주형인 경우 최빈값으로 대치하고, 연속형인 경우 중앙값으로 대치합니다. ‘범주형 → 중앙값’이라는 표현이 틀렸습니다. 정답 ③.
HQ3 정답: ②
풀이: 조건부 평균 대치법은 회귀분석을 활용합니다. 예시에서 선형회귀모형 Y = X·β₁ + β₀을 이용해 예측값을 구하는 것이 회귀분석 기반 대치의 핵심입니다. K-최근접 이웃은 거리 기반 알고리즘이며, 핫덱은 유사 집단 내 임의 개체 선택, 다중 대치법은 m번 반복 수행하는 방법입니다. 정답 ②.
결측값 유형 비교 요약표
| 유형 | 영문 | 특징 | 처리 방법 |
|---|---|---|---|
| 완전 무작위 결측 | MCAR | 다른 변수와 아무 상관 없음 | 단순 또는 다중 대치법 |
| 무작위 결측 | MAR | 다른 변수와 연관 / 결과에 영향 없음 | 단순 또는 다중 대치법 |
| 비무작위 결측 | NMAR | 결측값이 결과에 직접 영향 | 통계적 대체 모델 없음 |
다음 편 예고
2편에서는 결측값의 유형(MCAR·MAR·NMAR), 삭제·대치법, 다중 대치법 3단계까지 완벽 정리했습니다. 빅데이터분석기사 데이터 정제 3편에서는 이상값(Outlier)의 정의, 유형, 탐색 기법(Z검정·IQR·K-NN·LOF), 처리 기법(삭제·극단치 기준 적용·대치)을 집중 공략합니다. 이상값 탐색은 계산 문제도 출제되므로 반드시 함께 확인하세요.
