빅데이터분석기사 필기 완전정복 (분석 변수 처리 3편) — 변수 변환 완전정복 | 정규변환·범주형 변환·스케일링 핵심 요약

빅데이터분석기사 필기 변수 변환 단원은 정규 변환(로그·제곱근·Box-Cox), 범주형 데이터 변환(더미변수·변수 구간화), 스케일링(표준화·정규화)이 핵심 출제 영역입니다. 특히 표준화와 정규화의 공식 차이, 더미변수의 개수 공식(n-1개)이 자주 출제됩니다. 빅데이터분석기사 합격을 위한 변수 변환 완전 정복을 지금 확인하세요.


시험 합격 전략 요약

  • 정규 변환 4가지 기법의 적용 상황 구분: 로그(대칭화) / 제곱근·세제곱근(Right Skewed→정규화) / 제곱·세제곱(Left Skewed→정규화) / Box-Cox(로그+거듭제곱 포함)
  • 더미변수 개수 공식: 범주가 n개이면 더미변수는 n-1개
  • 표준화 vs 정규화: 표준화 = 평균 0·표준편차 1 / Min-Max 정규화 = 0~1 범위 / Max-Abs 정규화 = -1~1 범위

1단원: 변수 변환의 이해 & 정규 변환

초압축 암기 요약

  • 변수 변환(Variable Transformation) = 변수 유형에 따라 분석 방법이 달라지기 때문에 분석을 위해 불필요한 변수를 제거하고, 변수를 변환하며 분석에 용이하게 가공하는 작업
  • 정규 변환(Normal Transformation) = 변수의 분포 형태를 확인하여 정규분포를 따르지 않을 경우 정규분포로 변환하는 과정
  • 정규분포(Normal Distribution) = 평균을 중심으로 좌우 대칭이고 종모양을 갖는 확률분포 (평균=중앙값=최빈값)
  • 정규성 검정(Normality Test) = 데이터의 분포가 이론적 정규분포를 따르는지 검정하는 적합성 검정 방법

정규 변환 기법 4가지 상세 설명

① 로그 변환(Logarithm)
각 변수 x를 Log(x)로 바꾸는 데이터 변환 방법으로, 분포의 대칭화를 목적으로 평균과 중위수를 거의 같게 하여 산포의 균일화를 수행하는 방법입니다. 오른쪽으로 긴 꼬리를 갖는 분포(Right Skewed, 좌로 치우친 분포)를 대칭에 가깝게 만드는 데 효과적입니다.

② 제곱근(Square root) 변환 / 세제곱근(Cube root) 변환
오른쪽으로 긴 꼬리를 갖는(Right Skewed) 좌로 치우친 분포에 대해 정규분포를 만들기 위해 사용하는 방법입니다. √x 또는 ∛x 변환을 적용합니다. 로그 변환보다 변환 강도가 약합니다.

③ 제곱(Square) 변환 / 세제곱(Cube) 변환
왼쪽으로 긴 꼬리를 갖는(Left Skewed) 우로 치우친 분포에 대해 정규분포를 만들기 위해 사용하는 방법입니다. x² 또는 x³ 변환을 적용합니다. 제곱근·세제곱근과 적용 방향이 반대임에 주의해야 합니다.

④ 박스-콕스(Box-Cox) 변환
데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화하는 것으로, 정규성을 가정하는 분석법이나 정상성을 요구하는 분석법을 사용하기에 앞서 데이터의 전처리에 활용하는 변환 방법입니다. 로그 변환과 거듭제곱 변환(Power Transformation)을 포함합니다.

시험 핵심 포인트

  1. 로그 변환 = 분포 대칭화, 평균과 중위수를 거의 같게 만듦
  2. 제곱근·세제곱근 = Right Skewed(좌로 치우침) → 정규분포
  3. 제곱·세제곱 = Left Skewed(우로 치우침) → 정규분포
  4. Box-Cox = 로그 변환 + 거듭제곱 변환 모두 포함
  5. 정규분포 = 평균 = 중앙값 = 최빈값 / 좌우 대칭 / 종모양
  6. 정규성 검정 = 정규분포를 따르는지 검정하는 적합성 검정

2단원: 범주형 데이터의 변환

초압축 암기 요약

  • 범주형 데이터 변환 = 대부분의 데이터 분석 모델은 숫자만 입력으로 받으므로 범주형 데이터는 숫자로 변환
  • 더미변수(Dummy Variable, 가변환) = 범주형 변수를 연속형 변수로 변환. 범주가 n개이면 기준 범주 제외한 n-1개의 더미변수 생성
  • 변수 구간화 = 연속형 변수를 다수의 구간으로 나누고 동일한 구간에 속하는 변수 값들을 하나의 변수값으로 변환하는 기법

초보자 이해용 상세 설명

범주형 변수 → 숫자 변환의 필요성
대부분의 머신러닝 모델은 숫자 데이터만 처리할 수 있습니다. 따라서 ‘봄’, ‘여름’, ‘가을’, ‘겨울’처럼 문자로 표현된 범주형 데이터는 반드시 숫자로 변환해야 합니다. 단순히 봄=1, 여름=2, 가을=3, 겨울=4로 변환할 수 있습니다.

더미변수(Dummy Variable, 가변환)
범주형 변수를 연속형 변수로 변환하는 과정입니다. 범주형 변수의 데이터 값의 범주가 n개를 가지고 있으면 기준이 되는 범주를 제외한 n-1개의 변수를 생성합니다.
예시: 계절 변수 4개(봄·여름·가을·겨울)에 대해 n-1개인 3개의 더미변수를 생성합니다. 기준 범주(봄)를 제외하고 계절변수_여름, 계절변수_가을, 계절변수_겨울 3개를 만들며, 봄인 경우 세 더미변수 모두 0이 됩니다.

변수 구간화(Variable Binning)
연속형 변수를 다수의 구간으로 나누고 동일한 구간에 속하는 변수 값들을 하나의 변수값으로 변환하는 기법입니다. 예시: 나이 변수(2, 3, 7, 14, 16, 17, 23, 26, 27, 31, 36)를 구간 1(10대), 구간 2(20대), 구간 3(30대)으로 변환합니다.

연속형 변수 → 범주형 변수 변환
변수 구간화가 대표적인 방법입니다. 연속적인 수치 데이터를 구간별 범주로 묶어 처리합니다.

시험 핵심 포인트

  1. 더미변수(가변환) = 범주형 → 연속형 변환
  2. 더미변수 개수 = n – 1개 (기준 범주 1개 제외)
  3. 계절 4개 → 더미변수 3개 생성 (기준 범주 제외)
  4. 기준 범주는 모든 더미변수가 0인 상태로 표현
  5. 변수 구간화 = 연속형 → 범주형 변환 (나이→10대·20대·30대)

3단원: 스케일링(Scaling)을 이용한 변환

초압축 암기 요약

  • 데이터 스케일링 = 서로 다른 변수의 값의 범위를 일정한 수준으로 맞추는 작업 (변수들에 대한 상대 비교)
  • 표준화(Standardization) = 평균 0, 표준편차(분산) 1인 가우시안 정규분포로 변환. Z변환화 변수 = (X – μ) / σ
  • 정규화(Normalization) 2종류:
    • Min-Max 정규화(최소-최대 정규화) = 0~1 범위. X’ = (X – X_min) / (X_max – X_min)
    • Max-Abs 정규화(최대 절대값 정규화) = -1~1 범위. X’ = X / |X|_max

초보자 이해용 상세 설명

스케일링이 필요한 이유
키(cm)와 몸무게(kg)처럼 단위와 범위가 다른 변수들을 그대로 분석하면 범위가 큰 변수가 결과에 과도한 영향을 미칩니다. 스케일링은 모든 변수의 값 범위를 일정한 수준으로 맞추어 변수들을 공평하게 비교할 수 있게 합니다.

① 표준화(Standardization)
변수 각각의 데이터를 평균이 0이고 분산(표준편차)이 1인 가우시안 정규분포를 가진 값으로 변환해 주는 스케일링 기법입니다.
공식: Z표준화 변수 = (X – μ) / σ (μ: 평균, σ: 표준편차)
특징: 이상값의 영향을 받으며, 값의 범위에 제한이 없습니다.

② Min-Max 정규화(최소-최대 정규화)
서로 다른 변수의 크기를 통일하기 위해 데이터 범위를 0과 1 사이로 변환해주는 스케일링 기법입니다.
공식: X’ = (X – X_min) / (X_max – X_min)
특징: 모든 값이 [0, 1] 범위 안에 들어옵니다. 이상값에 민감합니다.

③ Max-Abs 정규화(최대 절대값 정규화)
절댓값이 가장 큰 수의 절대값으로 전체를 나누어 모든 데이터의 범위를 [-1, 1]로 조절하는 방법입니다.
공식: X’ = X / |X|_max
특징: 음수 값도 처리 가능하며 데이터의 부호를 유지합니다.

시험 핵심 포인트

  1. 표준화 = 평균 0, 표준편차 1 / 공식: (X – μ) / σ
  2. Min-Max 정규화 = 0~1 범위 / 공식: (X – X_min) / (X_max – X_min)
  3. Max-Abs 정규화 = -1~1 범위 / 공식: X / |X|_max
  4. 스케일링 목적: 서로 다른 변수 범위를 일정 수준으로 맞추는 작업
  5. 표준화 vs Min-Max: 표준화는 범위 제한 없음 / Min-Max는 0~1 고정

기본 확인문제 5문제

Q1. 다음 중 오른쪽으로 긴 꼬리를 갖는(Right Skewed) 좌로 치우친 분포를 정규분포로 변환하는 데 적합한 기법이 아닌 것은?

① 로그 변환(Logarithm)
② 제곱근(Square root) 변환
③ 세제곱근(Cube root) 변환
④ 제곱(Square) 변환

Q2. 다음 중 더미변수(Dummy Variable)에 대한 설명으로 올바른 것은?

① 범주형 변수의 범주가 n개이면 n개의 더미변수를 생성한다.
② 범주형 변수의 범주가 n개이면 기준 범주를 제외한 n-1개의 더미변수를 생성한다.
③ 연속형 변수를 다수의 구간으로 나누는 기법이다.
④ 더미변수는 연속형 변수를 범주형 변수로 변환하는 방법이다.

Q3. Min-Max 정규화를 적용하면 모든 데이터는 어느 범위로 변환되는가?

① -1에서 1 사이
② 0에서 1 사이
③ 평균 0, 표준편차 1
④ 0에서 100 사이

Q4. 다음 중 박스-콕스(Box-Cox) 변환에 대한 설명으로 올바른 것은?

① 범주형 변수를 연속형으로 변환하는 기법이다.
② 로그 변환과 거듭제곱 변환(Power Transformation)을 포함하는 변환 방법이다.
③ Min-Max 정규화의 다른 이름이다.
④ Left Skewed 분포에만 적용 가능하다.

Q5. 다음 중 Max-Abs 정규화(최대 절대값 정규화)의 공식으로 올바른 것은?

① X’ = (X – X_min) / (X_max – X_min)
② X’ = (X – μ) / σ
③ X’ = X / |X|_max
④ X’ = Log(X)


기본문제 해설

Q1 정답: ④
Right Skewed(좌로 치우친) 분포에는 로그 변환, 제곱근 변환, 세제곱근 변환을 사용합니다. 제곱(Square) 변환은 반대로 Left Skewed(우로 치우친) 분포에 적용합니다.

Q2 정답: ②
더미변수는 n개의 범주에서 기준 범주 1개를 제외한 n-1개를 생성합니다. ①은 n개가 아닌 n-1개가 맞습니다. ③은 변수 구간화의 설명이며, ④는 더미변수가 범주형→연속형 변환임을 반대로 서술했습니다.

Q3 정답: ②
Min-Max 정규화는 최솟값을 0, 최댓값을 1로 하여 모든 데이터를 [0, 1] 범위로 변환합니다. ①은 Max-Abs 정규화, ③은 표준화의 결과입니다.

Q4 정답: ②
Box-Cox 변환은 로그 변환과 거듭제곱 변환(Power Transformation)을 포함하는 정규화 전처리 방법입니다. 정규성을 가정하는 분석법 적용 전에 사용합니다.

Q5 정답: ③
Max-Abs 정규화 공식은 X’ = X / |X|_max입니다. ①은 Min-Max 정규화, ②는 표준화, ④는 로그 변환 공식입니다.


고난도 확인문제 3문제

HQ1. 다음 중 변수 변환 기법과 적용 상황이 올바르게 연결된 것을 모두 고른 것은?

(가) 로그 변환 — 분포의 대칭화 목적, Right Skewed 분포에 효과적
(나) 제곱근 변환 — Left Skewed(우로 치우친) 분포를 정규분포로 변환
(다) 제곱 변환 — Left Skewed(우로 치우친) 분포를 정규분포로 변환
(라) Box-Cox 변환 — 로그 변환과 거듭제곱 변환을 모두 포함

① (가), (다), (라)
② (가), (나), (라)
③ (나), (다), (라)
④ (가), (나), (다), (라)

HQ2. 계절 변수(봄, 여름, 가을, 겨울)를 더미변수로 변환할 때, 올바른 설명을 모두 고른 것은?

(가) 생성되는 더미변수의 수는 4개이다.
(나) 기준 범주(봄)는 계절변수_여름, 계절변수_가을, 계절변수_겨울이 모두 0인 상태로 표현된다.
(다) 더미변수는 범주형 변수를 연속형 변수로 변환하는 과정이다.
(라) n-1 규칙에 의해 3개의 더미변수를 생성한다.

① (가), (다)
② (나), (다), (라)
③ (가), (나), (라)
④ (나), (라)

HQ3. 다음 데이터에 Min-Max 정규화를 적용했을 때 값 20의 변환 결과는?
데이터: 10, 20, 30, 40, 50 (최솟값=10, 최댓값=50)

① 0.0
② 0.25
③ 0.5
④ 0.75


고난도 해설 (풀이과정 포함)

HQ1 정답: ①
풀이: (가) 로그 변환은 분포 대칭화 목적, Right Skewed에 효과적 → 맞습니다. (나) 제곱근 변환은 Right Skewed(좌로 치우친) 분포에 사용합니다. Left Skewed라는 표현이 틀렸습니다 → 틀린 연결. (다) 제곱 변환은 Left Skewed(우로 치우친) 분포에 사용 → 맞습니다. (라) Box-Cox = 로그+거듭제곱 포함 → 맞습니다. 올바른 것은 (가), (다), (라) → 정답 ①.

HQ2 정답: ②
풀이: (가) 계절 변수 4개 → 더미변수는 n-1 = 3개입니다. 4개라는 표현이 틀렸습니다. (나) 기준 범주(봄)는 나머지 3개 더미변수가 모두 0인 상태로 표현됩니다 → 맞습니다. (다) 더미변수는 범주형→연속형 변환입니다 → 맞습니다. (라) n-1 규칙으로 3개 생성 → 맞습니다. 올바른 것은 (나), (다), (라) → 정답 ②.

HQ3 정답: ②
풀이: Min-Max 정규화 공식 = (X – X_min) / (X_max – X_min). X=20, X_min=10, X_max=50을 대입하면 (20 – 10) / (50 – 10) = 10 / 40 = 0.25. 정답 ②.


변수 변환 기법 비교 요약표

기법적용 상황변환 방식
로그 변환Right Skewed (좌로 치우침)Log(x) — 대칭화
제곱근·세제곱근Right Skewed (좌로 치우침)√x, ∛x
제곱·세제곱Left Skewed (우로 치우침)x², x³
Box-Cox정규성 전처리 (범용)로그+거듭제곱 포함
스케일링 기법범위공식
표준화(Standardization)제한 없음 (평균0, 표준편차1)(X – μ) / σ
Min-Max 정규화0 ~ 1(X – X_min) / (X_max – X_min)
Max-Abs 정규화-1 ~ 1X / |X|_max

다음 편 예고

3편에서는 변수 변환의 정규 변환 4가지, 더미변수(n-1 공식), 변수 구간화, 스케일링(표준화·Min-Max·Max-Abs) 전체를 완벽 정리했습니다. 빅데이터분석기사 분석 변수 처리 4편에서는 불균형 데이터 처리(오버 샘플링·언더 샘플링)의 각 기법을 집중 공략합니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다