빅데이터분석기사 필기 완전정복 (데이터 정제 1편) — 데이터 전처리 개요 & 데이터 정제 오류 원인 4가지 핵심 요약 정리

빅데이터분석기사 필기 데이터 정제 단원은 데이터 전처리(Data Preprocessing)의 전체 구조와 데이터 정제(Data Cleaning)의 정의, 그리고 데이터 오류의 원인 4가지를 정확히 구분하는 문제가 출제됩니다. 이 글에서는 초보자도 이해할 수 있도록 핵심 개념을 완벽 정리하고 기출 유형 확인문제까지 제공합니다. 빅데이터분석기사 합격을 위한 요약 정리를 지금 확인하세요.


시험 합격 전략 요약

이 단원에서 반드시 구분해야 할 포인트는 두 가지입니다.

  • 데이터 전처리(Data Preprocessing)와 데이터 정제(Data Cleaning)의 포함 관계 — 전처리가 정제를 포함하는 더 넓은 개념
  • 데이터 오류 원인 4가지(결측값·노이즈·이상값·아티팩트)의 정의와 예시를 각각 연결

특히 이상값(Outlier)과 노이즈(Noise)를 혼동하는 오답 보기가 자주 등장합니다. 이상값은 범위를 크게 벗어난 극단값, 노이즈는 측정 시 개입되는 임의적 오류라는 점을 명확히 구분해야 합니다.


1단원: 데이터 전처리(Data Preprocessing) 개요

초압축 암기 요약

  • 데이터 전처리
    = 데이터 정제 + 통합 + 축소 + 변환을 포함하는 광의적 개념
    = 데이터를 분석 및 처리에 적합한 형태로 만드는 과정 총칭
    = 데이터 정제와 분석변수처리를 포함하는 광의적 개념
  • 전처리 과정은 1회성으로 끝나지 않고 데이터 변화 요인이 발생할 때마다 반복 수행
  • 전처리 구성요소: 데이터 정제 / 데이터 실수화 / 데이터 통합 / 분석 변수 처리 / 데이터 축소 / 파생 변수 생성 / 데이터 변환 / 불균형 데이터 처리

초보자 이해용 상세 설명

정의
데이터 전처리(Data Preprocessing)란 수집된 원시 데이터를 분석에 바로 사용할 수 있는 형태로 가공하는 모든 과정을 말합니다. 정제, 통합, 축소, 변환 등 여러 작업이 포함된 광의적 개념입니다.

원리
현실의 데이터는 결측값, 오류, 중복, 형식 불일치 등의 문제를 항상 안고 있습니다. 이런 데이터를 그대로 분석하면 잘못된 결과가 나옵니다. 전처리는 이러한 문제를 해결해 데이터 품질을 높이는 작업입니다. 데이터 변화 요인이 생길 때마다 반복적으로 수행하는 것이 핵심입니다.

예시
고객 구매 데이터를 분석할 때, 나이 컬럼에 빈 값이 있거나(결측값), 몸무게가 500kg으로 입력된 경우(이상값), 또는 같은 고객이 다른 이름으로 두 번 입력된 경우(중복)를 모두 정리하는 과정이 데이터 전처리입니다.

시험 출제 포인트
“데이터 전처리는 1회성으로 끝나는 것이 아닌, 반복적으로 수행한다”는 표현이 자주 출제됩니다. ‘1회로 완료된다’는 보기는 오답입니다.

시험 핵심 포인트

  1. 데이터 전처리는 광의적 개념으로 정제·통합·축소·변환 모두 포함
  2. 데이터 정제는 전처리의 하위 개념이다
  3. 전처리 구성요소 8가지: 데이터 정제 / 실수화 / 통합 / 분석 변수 처리 / 축소 / 파생 변수 생성 / 변환 / 불균형 데이터 처리
  4. 전처리는 반복적으로 수행하는 과정이다 (1회성 아님)
  5. 전처리 목적: 데이터를 분석 및 처리에 적합한 형태로 만드는 것

2단원: 데이터 정제(Data Cleaning)

초압축 암기 요약

  • 데이터 정제 = 결측값·잡음·이상값 등 오류 요인을 제거하고 불일치를 해결하여 데이터의 신뢰도를 높이는 과정
  • 데이터 오류 원인 4가지: 결측값(Missing Value) / 노이즈(Noise) / 이상값(Outlier) / 아티팩트(Artifact)
  • 결측값 = 값이 존재하지 않고 비어있는 상태
  • 노이즈 = 데이터 측정 시 여러 이유로 개입되는 임의적인 요소
  • 이상값 = 데이터 범위에서 많이 벗어난 아주 작거나 큰 값
  • 아티팩트 = 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러

초보자 이해용 상세 설명

정의
데이터 정제(Data Cleaning)란 데이터 전처리의 한 과정으로, 결측값·잡음·이상값 등 데이터 오류를 일으킬 수 있는 요인을 제거하고 불일치를 해결하여 데이터의 신뢰도를 높이는 과정입니다.

오류 원인 4가지 상세 설명

① 결측값(Missing Value)
정의: 값이 존재하지 않고 비어있는 상태입니다.
예시: 설문조사에서 응답자가 자신의 나이나 몸무게와 같은 사적인 정보를 공개하기를 꺼려서 해당 항목을 빈칸으로 제출하는 경우입니다.

② 노이즈(Noise)
정의: 데이터 측정 시 여러 가지 이유로 개입되는 임의적인 요소입니다.
예시: 몸무게를 측정할 때 실수로 잘못 기록하는 경우입니다. 고의가 아닌 측정 과정의 오류가 핵심입니다.

③ 이상값(Outlier)
정의: 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값입니다.
예시: 40대의 평균 연봉이 7,000만원인데 1,000만원이나 3억 연봉처럼 평균에 극단적인 영향을 주는 값이 포함된 경우입니다.

④ 아티팩트(Artifact)
정의: 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러를 의미합니다.
예시: 카메라 렌즈에 얼룩이 묻어 있다면 그 얼룩으로 인한 왜곡이 모든 사진에서 지속적으로 발생하는 경우입니다. 일시적이 아닌 반복적·구조적 오류가 핵심입니다.

시험 출제 포인트
노이즈와 이상값, 아티팩트의 구분이 핵심입니다. 노이즈는 임의적·일시적 오류, 이상값은 범위 이탈, 아티팩트는 반복적·구조적 왜곡으로 명확히 구분해야 합니다.

시험 핵심 포인트

  1. 데이터 정제 목적: 오류 제거 + 불일치 해결 → 데이터 신뢰도 향상
  2. 결측값 = 값이 비어있는 상태 (Na, NaN, Inf, Null로 표현)
  3. 노이즈 = 측정 시 임의적으로 개입되는 오류 (고의 아님)
  4. 이상값 = 범위를 크게 벗어난 극단값 (작거나 큰 값)
  5. 아티팩트 = 반복적·구조적으로 발생하는 왜곡/에러
  6. 노이즈 vs 이상값: 노이즈는 임의적 오류, 이상값은 극단적 범위 이탈
  7. 아티팩트 핵심 키워드: 반복적으로 발생

기본 확인문제 5문제

Q1. 다음 중 데이터 전처리(Data Preprocessing)에 대한 설명으로 올바른 것은?

① 데이터 정제만을 의미하는 협의적 개념이다.
② 데이터 정제, 통합, 축소, 변환을 포함하는 광의적 개념이다.
③ 1회성으로 완료되는 과정이다.
④ 분석이 완료된 후에만 수행한다.

Q2. 다음 중 데이터 정제(Data Cleaning)의 정의로 가장 올바른 것은?

① 데이터를 압축하여 저장 공간을 줄이는 과정
② 데이터를 여러 소스에서 통합하는 과정
③ 결측값, 잡음, 이상값 등 오류 요인을 제거하고 불일치를 해결하여 신뢰도를 높이는 과정
④ 데이터를 수치형으로 변환하는 과정

Q3. 다음 중 아티팩트(Artifact)에 대한 설명으로 올바른 것은?

① 값이 존재하지 않고 비어있는 상태
② 데이터 측정 시 임의적으로 개입되는 요소
③ 데이터 범위에서 크게 벗어난 극단값
④ 어떠한 요인으로 인해 반복적으로 발생하는 왜곡이나 에러

Q4. 다음 중 데이터 오류 원인과 예시의 연결이 올바른 것은?

① 결측값 — 40대 평균 연봉이 7,000만원인데 3억이 포함된 경우
② 노이즈 — 카메라 렌즈 얼룩으로 모든 사진에 반복적 왜곡 발생
③ 이상값 — 설문조사에서 몸무게 항목을 빈칸으로 제출한 경우
④ 아티팩트 — 카메라 렌즈에 얼룩이 묻어 모든 사진에 왜곡이 지속 발생하는 경우

Q5. 다음 중 데이터 전처리의 구성요소가 아닌 것은?

① 데이터 정제
② 파생 변수 생성
③ 불균형 데이터 처리
④ 데이터 암호화


기본문제 해설

Q1 정답: ②
데이터 전처리는 정제·통합·축소·변환을 포함하는 광의적 개념입니다. ①은 협의적이라는 표현이 틀렸고, ③은 반복 수행이 맞으므로 틀렸으며, ④는 분석 전에 수행하는 것이 원칙입니다.

Q2 정답: ③
데이터 정제는 오류 요인 제거 + 불일치 해결 = 신뢰도 향상이 핵심 정의입니다. ①은 데이터 축소, ②는 데이터 통합, ④는 데이터 실수화에 해당합니다.

Q3 정답: ④
아티팩트는 반복적으로 발생하는 왜곡/에러가 핵심입니다. ①은 결측값, ②는 노이즈, ③은 이상값의 정의입니다.

Q4 정답: ④
아티팩트의 대표 예시가 카메라 렌즈 얼룩으로 인한 반복적 왜곡입니다. ①의 3억 포함은 이상값, ②의 반복 왜곡은 아티팩트(노이즈 아님), ③의 빈칸 제출은 결측값입니다.

Q5 정답: ④
데이터 암호화는 전처리의 구성요소가 아닙니다. 전처리 구성요소는 정제, 실수화, 통합, 분석 변수 처리, 축소, 파생 변수 생성, 변환, 불균형 데이터 처리입니다.


고난도 확인문제 3문제

HQ1. 다음 보기 중 데이터 오류 원인에 대한 설명으로 올바른 것을 모두 고른 것은?

(가) 결측값은 Na, NaN, Inf, Null 등으로 표현된다.
(나) 노이즈는 고의적으로 잘못 입력한 데이터를 의미한다.
(다) 이상값은 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값이다.
(라) 아티팩트는 일시적으로 한 번만 발생하는 오류를 의미한다.

① (가), (다)
② (나), (라)
③ (가), (나), (다)
④ (가), (다), (라)

HQ2. 다음 중 데이터 전처리에 대한 설명으로 틀린 것은?

① 데이터 전처리는 데이터 정제와 분석변수처리를 포함하는 광의적 개념이다.
② 데이터 정제는 데이터 전처리의 하위 개념에 해당한다.
③ 데이터 전처리는 데이터 변화 요인이 발생할 때마다 반복적으로 수행된다.
④ 데이터 전처리가 완료되면 이후에는 다시 수행할 필요가 없다.

HQ3. 다음 상황에서 발생한 데이터 오류의 유형이 올바르게 짝지어진 것은?

(가) 체중 측정 장비의 센서 오작동으로 매번 실제보다 3kg 더 높게 측정됨
(나) 설문 응답자가 연봉 항목을 작성하지 않고 제출함
(다) 전체 직원 평균 연봉이 5,000만원인데 특정 임원의 연봉 50억이 포함되어 평균을 왜곡함

① (가) 노이즈 / (나) 결측값 / (다) 아티팩트
② (가) 아티팩트 / (나) 결측값 / (다) 이상값
③ (가) 이상값 / (나) 아티팩트 / (다) 노이즈
④ (가) 결측값 / (나) 노이즈 / (다) 이상값


🧩 고난도 해설 (풀이과정 포함)

HQ1 정답: ①
풀이: (가) 결측값 표현 방식(Na, NaN, Inf, Null) → 맞습니다. (나) 노이즈는 고의가 아닌 임의적·무작위적 오류입니다 → 틀린 설명. (다) 이상값의 정의로 정확합니다 → 맞습니다. (라) 아티팩트는 반복적으로 발생하는 왜곡입니다. 일시적이라는 표현이 틀렸습니다 → 틀린 설명. 따라서 올바른 것은 (가), (다) → 정답 ①.

HQ2 정답: ④
풀이: ①②③은 모두 정확한 설명입니다. ④ “완료 후 다시 수행할 필요 없다”는 완전히 틀린 설명입니다. 데이터 전처리는 데이터 변화 요인이 발생할 때마다 반복적으로 수행하는 것이 핵심 특징입니다. 정답 ④.

HQ3 정답: ②
풀이: (가) 센서 오작동으로 매번 반복적으로 잘못 측정됨 → 아티팩트(반복적·구조적 오류). (나) 연봉 항목을 작성하지 않음 → 결측값(비어있는 상태). (다) 50억이라는 극단값이 평균을 왜곡함 → 이상값(범위에서 크게 벗어난 값). 따라서 (가) 아티팩트 / (나) 결측값 / (다) 이상값 → 정답 ②.


데이터 오류 원인 4가지 요약표

오류 원인정의핵심 키워드예시
결측값(Missing Value)값이 존재하지 않고 비어있는 상태빈 값, Na/NaN/Null설문에서 나이·몸무게 미기입
노이즈(Noise)측정 시 임의적으로 개입되는 요소임의적, 무작위몸무게를 실수로 잘못 기록
이상값(Outlier)범위에서 많이 벗어난 극단값극단, 범위 이탈평균 연봉 중 3억·1,000만원 포함
아티팩트(Artifact)반복적으로 발생하는 왜곡/에러반복적, 구조적렌즈 얼룩으로 모든 사진에 왜곡

다음 편 예고

1편에서는 데이터 전처리의 전체 구조와 데이터 정제의 오류 원인 4가지를 완벽하게 정리했습니다. 빅데이터분석기사 데이터 정제 2편에서는 결측값의 정의, 유형(MCAR·MAR·NMAR), 처리 절차, 그리고 삭제·대치법(단순 대치법·다중 대치법)까지 결측값 처리 전반을 집중 공략합니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다