빅데이터분석기사 필기 변수 변환 단원은 정규 변환(로그·제곱근·Box-Cox), 범주형 데이터 변환(더미변수·변수 구간화), 스케일링(표준화·정규화)이 핵심 출제 영역입니다. 특히 표준화와 정규화의 공식 차이, 더미변수의 개수 공식(n-1개)이 자주 출제됩니다. 빅데이터분석기사 합격을 위한 변수 변환 완전 정복을 지금 확인하세요.
시험 합격 전략 요약
- 정규 변환 4가지 기법의 적용 상황 구분: 로그(대칭화) / 제곱근·세제곱근(Right Skewed→정규화) / 제곱·세제곱(Left Skewed→정규화) / Box-Cox(로그+거듭제곱 포함)
- 더미변수 개수 공식: 범주가 n개이면 더미변수는 n-1개
- 표준화 vs 정규화: 표준화 = 평균 0·표준편차 1 / Min-Max 정규화 = 0~1 범위 / Max-Abs 정규화 = -1~1 범위
1단원: 변수 변환의 이해 & 정규 변환
초압축 암기 요약
- 변수 변환(Variable Transformation) = 변수 유형에 따라 분석 방법이 달라지기 때문에 분석을 위해 불필요한 변수를 제거하고, 변수를 변환하며 분석에 용이하게 가공하는 작업
- 정규 변환(Normal Transformation) = 변수의 분포 형태를 확인하여 정규분포를 따르지 않을 경우 정규분포로 변환하는 과정
- 정규분포(Normal Distribution) = 평균을 중심으로 좌우 대칭이고 종모양을 갖는 확률분포 (평균=중앙값=최빈값)
- 정규성 검정(Normality Test) = 데이터의 분포가 이론적 정규분포를 따르는지 검정하는 적합성 검정 방법
정규 변환 기법 4가지 상세 설명
① 로그 변환(Logarithm)
각 변수 x를 Log(x)로 바꾸는 데이터 변환 방법으로, 분포의 대칭화를 목적으로 평균과 중위수를 거의 같게 하여 산포의 균일화를 수행하는 방법입니다. 오른쪽으로 긴 꼬리를 갖는 분포(Right Skewed, 좌로 치우친 분포)를 대칭에 가깝게 만드는 데 효과적입니다.
② 제곱근(Square root) 변환 / 세제곱근(Cube root) 변환
오른쪽으로 긴 꼬리를 갖는(Right Skewed) 좌로 치우친 분포에 대해 정규분포를 만들기 위해 사용하는 방법입니다. √x 또는 ∛x 변환을 적용합니다. 로그 변환보다 변환 강도가 약합니다.
③ 제곱(Square) 변환 / 세제곱(Cube) 변환
왼쪽으로 긴 꼬리를 갖는(Left Skewed) 우로 치우친 분포에 대해 정규분포를 만들기 위해 사용하는 방법입니다. x² 또는 x³ 변환을 적용합니다. 제곱근·세제곱근과 적용 방향이 반대임에 주의해야 합니다.
④ 박스-콕스(Box-Cox) 변환
데이터를 정규분포에 가깝게 만들거나 데이터의 분산을 안정화하는 것으로, 정규성을 가정하는 분석법이나 정상성을 요구하는 분석법을 사용하기에 앞서 데이터의 전처리에 활용하는 변환 방법입니다. 로그 변환과 거듭제곱 변환(Power Transformation)을 포함합니다.
시험 핵심 포인트
- 로그 변환 = 분포 대칭화, 평균과 중위수를 거의 같게 만듦
- 제곱근·세제곱근 = Right Skewed(좌로 치우침) → 정규분포
- 제곱·세제곱 = Left Skewed(우로 치우침) → 정규분포
- Box-Cox = 로그 변환 + 거듭제곱 변환 모두 포함
- 정규분포 = 평균 = 중앙값 = 최빈값 / 좌우 대칭 / 종모양
- 정규성 검정 = 정규분포를 따르는지 검정하는 적합성 검정
2단원: 범주형 데이터의 변환
초압축 암기 요약
- 범주형 데이터 변환 = 대부분의 데이터 분석 모델은 숫자만 입력으로 받으므로 범주형 데이터는 숫자로 변환
- 더미변수(Dummy Variable, 가변환) = 범주형 변수를 연속형 변수로 변환. 범주가 n개이면 기준 범주 제외한 n-1개의 더미변수 생성
- 변수 구간화 = 연속형 변수를 다수의 구간으로 나누고 동일한 구간에 속하는 변수 값들을 하나의 변수값으로 변환하는 기법
초보자 이해용 상세 설명
범주형 변수 → 숫자 변환의 필요성
대부분의 머신러닝 모델은 숫자 데이터만 처리할 수 있습니다. 따라서 ‘봄’, ‘여름’, ‘가을’, ‘겨울’처럼 문자로 표현된 범주형 데이터는 반드시 숫자로 변환해야 합니다. 단순히 봄=1, 여름=2, 가을=3, 겨울=4로 변환할 수 있습니다.
더미변수(Dummy Variable, 가변환)
범주형 변수를 연속형 변수로 변환하는 과정입니다. 범주형 변수의 데이터 값의 범주가 n개를 가지고 있으면 기준이 되는 범주를 제외한 n-1개의 변수를 생성합니다.
예시: 계절 변수 4개(봄·여름·가을·겨울)에 대해 n-1개인 3개의 더미변수를 생성합니다. 기준 범주(봄)를 제외하고 계절변수_여름, 계절변수_가을, 계절변수_겨울 3개를 만들며, 봄인 경우 세 더미변수 모두 0이 됩니다.
변수 구간화(Variable Binning)
연속형 변수를 다수의 구간으로 나누고 동일한 구간에 속하는 변수 값들을 하나의 변수값으로 변환하는 기법입니다. 예시: 나이 변수(2, 3, 7, 14, 16, 17, 23, 26, 27, 31, 36)를 구간 1(10대), 구간 2(20대), 구간 3(30대)으로 변환합니다.
연속형 변수 → 범주형 변수 변환
변수 구간화가 대표적인 방법입니다. 연속적인 수치 데이터를 구간별 범주로 묶어 처리합니다.
시험 핵심 포인트
- 더미변수(가변환) = 범주형 → 연속형 변환
- 더미변수 개수 = n – 1개 (기준 범주 1개 제외)
- 계절 4개 → 더미변수 3개 생성 (기준 범주 제외)
- 기준 범주는 모든 더미변수가 0인 상태로 표현
- 변수 구간화 = 연속형 → 범주형 변환 (나이→10대·20대·30대)
3단원: 스케일링(Scaling)을 이용한 변환
초압축 암기 요약
- 데이터 스케일링 = 서로 다른 변수의 값의 범위를 일정한 수준으로 맞추는 작업 (변수들에 대한 상대 비교)
- 표준화(Standardization) = 평균 0, 표준편차(분산) 1인 가우시안 정규분포로 변환. Z변환화 변수 = (X – μ) / σ
- 정규화(Normalization) 2종류:
- Min-Max 정규화(최소-최대 정규화) = 0~1 범위. X’ = (X – X_min) / (X_max – X_min)
- Max-Abs 정규화(최대 절대값 정규화) = -1~1 범위. X’ = X / |X|_max
초보자 이해용 상세 설명
스케일링이 필요한 이유
키(cm)와 몸무게(kg)처럼 단위와 범위가 다른 변수들을 그대로 분석하면 범위가 큰 변수가 결과에 과도한 영향을 미칩니다. 스케일링은 모든 변수의 값 범위를 일정한 수준으로 맞추어 변수들을 공평하게 비교할 수 있게 합니다.
① 표준화(Standardization)
변수 각각의 데이터를 평균이 0이고 분산(표준편차)이 1인 가우시안 정규분포를 가진 값으로 변환해 주는 스케일링 기법입니다.
공식: Z표준화 변수 = (X – μ) / σ (μ: 평균, σ: 표준편차)
특징: 이상값의 영향을 받으며, 값의 범위에 제한이 없습니다.
② Min-Max 정규화(최소-최대 정규화)
서로 다른 변수의 크기를 통일하기 위해 데이터 범위를 0과 1 사이로 변환해주는 스케일링 기법입니다.
공식: X’ = (X – X_min) / (X_max – X_min)
특징: 모든 값이 [0, 1] 범위 안에 들어옵니다. 이상값에 민감합니다.
③ Max-Abs 정규화(최대 절대값 정규화)
절댓값이 가장 큰 수의 절대값으로 전체를 나누어 모든 데이터의 범위를 [-1, 1]로 조절하는 방법입니다.
공식: X’ = X / |X|_max
특징: 음수 값도 처리 가능하며 데이터의 부호를 유지합니다.
시험 핵심 포인트
- 표준화 = 평균 0, 표준편차 1 / 공식: (X – μ) / σ
- Min-Max 정규화 = 0~1 범위 / 공식: (X – X_min) / (X_max – X_min)
- Max-Abs 정규화 = -1~1 범위 / 공식: X / |X|_max
- 스케일링 목적: 서로 다른 변수 범위를 일정 수준으로 맞추는 작업
- 표준화 vs Min-Max: 표준화는 범위 제한 없음 / Min-Max는 0~1 고정
기본 확인문제 5문제
Q1. 다음 중 오른쪽으로 긴 꼬리를 갖는(Right Skewed) 좌로 치우친 분포를 정규분포로 변환하는 데 적합한 기법이 아닌 것은?
① 로그 변환(Logarithm)
② 제곱근(Square root) 변환
③ 세제곱근(Cube root) 변환
④ 제곱(Square) 변환
Q2. 다음 중 더미변수(Dummy Variable)에 대한 설명으로 올바른 것은?
① 범주형 변수의 범주가 n개이면 n개의 더미변수를 생성한다.
② 범주형 변수의 범주가 n개이면 기준 범주를 제외한 n-1개의 더미변수를 생성한다.
③ 연속형 변수를 다수의 구간으로 나누는 기법이다.
④ 더미변수는 연속형 변수를 범주형 변수로 변환하는 방법이다.
Q3. Min-Max 정규화를 적용하면 모든 데이터는 어느 범위로 변환되는가?
① -1에서 1 사이
② 0에서 1 사이
③ 평균 0, 표준편차 1
④ 0에서 100 사이
Q4. 다음 중 박스-콕스(Box-Cox) 변환에 대한 설명으로 올바른 것은?
① 범주형 변수를 연속형으로 변환하는 기법이다.
② 로그 변환과 거듭제곱 변환(Power Transformation)을 포함하는 변환 방법이다.
③ Min-Max 정규화의 다른 이름이다.
④ Left Skewed 분포에만 적용 가능하다.
Q5. 다음 중 Max-Abs 정규화(최대 절대값 정규화)의 공식으로 올바른 것은?
① X’ = (X – X_min) / (X_max – X_min)
② X’ = (X – μ) / σ
③ X’ = X / |X|_max
④ X’ = Log(X)
기본문제 해설
Q1 정답: ④
Right Skewed(좌로 치우친) 분포에는 로그 변환, 제곱근 변환, 세제곱근 변환을 사용합니다. 제곱(Square) 변환은 반대로 Left Skewed(우로 치우친) 분포에 적용합니다.
Q2 정답: ②
더미변수는 n개의 범주에서 기준 범주 1개를 제외한 n-1개를 생성합니다. ①은 n개가 아닌 n-1개가 맞습니다. ③은 변수 구간화의 설명이며, ④는 더미변수가 범주형→연속형 변환임을 반대로 서술했습니다.
Q3 정답: ②
Min-Max 정규화는 최솟값을 0, 최댓값을 1로 하여 모든 데이터를 [0, 1] 범위로 변환합니다. ①은 Max-Abs 정규화, ③은 표준화의 결과입니다.
Q4 정답: ②
Box-Cox 변환은 로그 변환과 거듭제곱 변환(Power Transformation)을 포함하는 정규화 전처리 방법입니다. 정규성을 가정하는 분석법 적용 전에 사용합니다.
Q5 정답: ③
Max-Abs 정규화 공식은 X’ = X / |X|_max입니다. ①은 Min-Max 정규화, ②는 표준화, ④는 로그 변환 공식입니다.
고난도 확인문제 3문제
HQ1. 다음 중 변수 변환 기법과 적용 상황이 올바르게 연결된 것을 모두 고른 것은?
(가) 로그 변환 — 분포의 대칭화 목적, Right Skewed 분포에 효과적
(나) 제곱근 변환 — Left Skewed(우로 치우친) 분포를 정규분포로 변환
(다) 제곱 변환 — Left Skewed(우로 치우친) 분포를 정규분포로 변환
(라) Box-Cox 변환 — 로그 변환과 거듭제곱 변환을 모두 포함
① (가), (다), (라)
② (가), (나), (라)
③ (나), (다), (라)
④ (가), (나), (다), (라)
HQ2. 계절 변수(봄, 여름, 가을, 겨울)를 더미변수로 변환할 때, 올바른 설명을 모두 고른 것은?
(가) 생성되는 더미변수의 수는 4개이다.
(나) 기준 범주(봄)는 계절변수_여름, 계절변수_가을, 계절변수_겨울이 모두 0인 상태로 표현된다.
(다) 더미변수는 범주형 변수를 연속형 변수로 변환하는 과정이다.
(라) n-1 규칙에 의해 3개의 더미변수를 생성한다.
① (가), (다)
② (나), (다), (라)
③ (가), (나), (라)
④ (나), (라)
HQ3. 다음 데이터에 Min-Max 정규화를 적용했을 때 값 20의 변환 결과는?
데이터: 10, 20, 30, 40, 50 (최솟값=10, 최댓값=50)
① 0.0
② 0.25
③ 0.5
④ 0.75
고난도 해설 (풀이과정 포함)
HQ1 정답: ①
풀이: (가) 로그 변환은 분포 대칭화 목적, Right Skewed에 효과적 → 맞습니다. (나) 제곱근 변환은 Right Skewed(좌로 치우친) 분포에 사용합니다. Left Skewed라는 표현이 틀렸습니다 → 틀린 연결. (다) 제곱 변환은 Left Skewed(우로 치우친) 분포에 사용 → 맞습니다. (라) Box-Cox = 로그+거듭제곱 포함 → 맞습니다. 올바른 것은 (가), (다), (라) → 정답 ①.
HQ2 정답: ②
풀이: (가) 계절 변수 4개 → 더미변수는 n-1 = 3개입니다. 4개라는 표현이 틀렸습니다. (나) 기준 범주(봄)는 나머지 3개 더미변수가 모두 0인 상태로 표현됩니다 → 맞습니다. (다) 더미변수는 범주형→연속형 변환입니다 → 맞습니다. (라) n-1 규칙으로 3개 생성 → 맞습니다. 올바른 것은 (나), (다), (라) → 정답 ②.
HQ3 정답: ②
풀이: Min-Max 정규화 공식 = (X – X_min) / (X_max – X_min). X=20, X_min=10, X_max=50을 대입하면 (20 – 10) / (50 – 10) = 10 / 40 = 0.25. 정답 ②.
변수 변환 기법 비교 요약표
| 기법 | 적용 상황 | 변환 방식 |
|---|---|---|
| 로그 변환 | Right Skewed (좌로 치우침) | Log(x) — 대칭화 |
| 제곱근·세제곱근 | Right Skewed (좌로 치우침) | √x, ∛x |
| 제곱·세제곱 | Left Skewed (우로 치우침) | x², x³ |
| Box-Cox | 정규성 전처리 (범용) | 로그+거듭제곱 포함 |
| 스케일링 기법 | 범위 | 공식 |
|---|---|---|
| 표준화(Standardization) | 제한 없음 (평균0, 표준편차1) | (X – μ) / σ |
| Min-Max 정규화 | 0 ~ 1 | (X – X_min) / (X_max – X_min) |
| Max-Abs 정규화 | -1 ~ 1 | X / |X|_max |
다음 편 예고
3편에서는 변수 변환의 정규 변환 4가지, 더미변수(n-1 공식), 변수 구간화, 스케일링(표준화·Min-Max·Max-Abs) 전체를 완벽 정리했습니다. 빅데이터분석기사 분석 변수 처리 4편에서는 불균형 데이터 처리(오버 샘플링·언더 샘플링)의 각 기법을 집중 공략합니다.
