빅데이터분석기사 필기 완전정복 (분석 변수 처리 2편) — 차원 축소 PCA·SVD·MDS & 파생변수 생성 핵심 요약

빅데이터분석기사 필기 차원 축소 및 4.2.3 파생변수 생성 단원은 차원 축소의 유형(특성 추출 vs 특성 선택), PCA·요인분석·SVD·MDS·판별분석·t-SNE 각 기법의 특징, 파생변수와 요약변수의 차이가 핵심 출제 영역입니다. 빅데이터분석기사 합격을 위한 차원 축소 완전 정복을 지금 시작하세요.


시험 합격 전략 요약

이 단원에서 반드시 잡아야 할 포인트는 세 가지입니다.

  • 차원 축소 2가지 유형: 특성 추출(새로운 변수로 변환) vs 특성 선택(기존 변수 중 선택)
  • PCA vs 요인분석의 차이: PCA는 고차원을 저차원으로 변환 / 요인분석은 잠재적 변수를 가정하고 도출 (PCA 포함)
  • 파생변수 vs 요약변수: 파생변수는 새롭게 만든 변수 / 요약변수는 수집 정보를 종합(aggregate)한 변수

SVD와 MDS의 차이, t-SNE의 시각화 목적도 자주 출제됩니다.


1단원: 차원 축소의 이해

초압축 암기 요약

  • 차원 축소(Dimensionality Reduction) = 분석 효율성(비용 최적화)과 효과성(결과 정확성)을 위해 비즈니스 의미와 특성을 보존하면서 변수를 줄이는 과정
  • 차원의 저주 = 데이터 품귀 현상 (차원이 높아질수록 데이터 밀도가 낮아지는 현상)
  • 다중공선성 = 다중 회귀분석에서 독립변수 간 강한 상관관계가 존재하는 문제
  • 차원 축소 2가지 유형: 특성 추출(Feature Extraction) / 특성 선택(Feature Selection)
  • 특성 추출 = 기존 변수들을 조합하여 새로운 변수(주성분)로 변환 → 정보 손실 최소화
  • 특성 선택 = 기존 변수 중 일부를 선택하고 나머지를 제거

초보자 이해용 상세 설명

차원 축소가 필요한 이유
변수(차원)가 너무 많아지면 두 가지 문제가 발생합니다. 첫째, 차원의 저주(데이터 품귀 현상)로 데이터가 희박해져 분석 정확도가 떨어집니다. 둘째, 다중공선성 문제로 독립변수 간 강한 상관관계가 생겨 회귀분석 결과가 불안정해집니다. 차원 축소는 이러한 문제를 해결하면서 분석 효율성과 정확성을 높이는 과정입니다.

특성 추출 vs 특성 선택
특성 추출(Feature Extraction)은 기존 변수들을 선형 결합하여 새로운 특성(주성분 등)을 만드는 방법입니다. 정보를 최대한 보존하면서 차원을 줄입니다. PCA, SVD 등이 여기에 해당합니다.
특성 선택(Feature Selection)은 기존 변수들 중 중요한 변수만 선택하고 나머지를 제거하는 방법입니다. 변수 선택 기법(필터·래퍼·임베디드)이 여기에 해당합니다.

시험 출제 포인트
차원의 저주와 다중공선성이 차원 축소의 필요성과 연결되는 개념임을 이해해야 합니다. 특성 추출(새 변수 생성)과 특성 선택(기존 변수 중 선택)의 차이도 자주 출제됩니다.

시험 핵심 포인트

  1. 차원 축소 목적: 분석 효율성(비용↓) + 효과성(정확성↑)
  2. 차원의 저주 = 데이터 품귀 현상
  3. 다중공선성 = 다중 회귀분석에서 독립변수 간 강한 상관관계
  4. 특성 추출 = 새로운 변수로 변환 (정보 최대 보존)
  5. 특성 선택 = 기존 변수 중 선택 (일부 제거)

2단원: 차원 축소 기법 6가지

초압축 암기 요약

  • PCA(주성분 분석) = 고차원 → 저차원, 선형 연관성 없는 새 변수(주성분) 생성, 기존 변수 의미 포함
  • 요인분석(FA) = 잠재적 변수 가정 → 관찰 데이터로 잠재요인 도출 (PCA 포함)
  • SVD(특이값 분해) = 선형대수 기법, M×N 행렬 데이터에서 특이값 추출 → 데이터 축약
  • MDS(다차원 척도법) = 개체 간 유사성·비유사성 측정 → 2D·3D 공간에 점으로 표현
  • 판별분석(Discriminant Analysis) = 집단 구분 설명 변수로 판별식 도출 → 집단 예측
  • t-SNE = 고차원 데이터 → 2D·3D 저차원 시각화, 데이터 분석 과정 활용

초보자 이해용 상세 설명

① 주성분 분석(Principal Component Analysis, PCA)
고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법입니다. 여러 변수들의 선형 결합으로 이루어진 새로운 변수인 주성분을 만들어, 기존 변수들이 가지고 있는 의미를 포함하면서 차원을 축소합니다. 데이터의 분산을 최대로 보존하는 방향으로 주성분을 설정합니다.

② 요인분석(Factor Analysis, FA)
데이터에 관찰할 수 있는 잠재적 변수가 존재한다고 가정하여, 모형을 세운 뒤 관찰 가능한 데이터를 이용하여 해당 잠재요인을 도출하고 데이터 구조를 해석하는 기법입니다. PCA를 포함하는 더 넓은 개념입니다.

③ 특이값 분해(Singular Value Decomposition, SVD)
선형대수의 일반적 기법이며, 실수공간에 정의된 M×N 차원의 행렬 데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약할 수 있는 기법입니다. 이미지 압축, 추천 시스템 등에 활용됩니다.

④ 다차원 척도법(Multi Dimensional Scaling, MDS)
개체들 사이의 유사성, 비유사성을 측정하여 2차원 또는 3차원 공간상에 점으로 표현하여 개체들 사이의 집단화를 시각적으로 표현하는 분석 방법입니다. 데이터 간의 거리나 유사도를 시각적으로 확인할 수 있습니다.

⑤ 판별분석(Discriminant Analysis)
집단을 구분할 수 있는 설명 변수를 통하여 집단을 구분하는 기법입니다. 함수식(판별식)을 도출하고 소속된 집단을 예측하는 목적으로 사용하는 통계 기법입니다.

⑥ t-SNE(t-distributed stochastic neighbor embedding)
고차원 데이터를 2차원 또는 3차원의 저차원 데이터로 시각화하여 데이터 분석 과정에서 활용하기 위한 방법입니다. 군집 구조를 직관적으로 시각화할 때 유용합니다.

시험 출제 포인트
PCA와 요인분석의 차이, MDS와 t-SNE 모두 시각화가 목적이지만 방식이 다르다는 점이 출제됩니다. SVD는 ‘행렬 데이터에서 특이값 추출’이 핵심 키워드입니다.

시험 핵심 포인트

  1. PCA = 고차원 → 저차원, 선형 결합으로 주성분 생성
  2. 요인분석 = 잠재적 변수 가정 → 도출 (PCA 포함)
  3. SVD = M×N 행렬에서 특이값 추출 → 데이터 축약
  4. MDS = 유사성·비유사성 → 2D·3D 점으로 시각화
  5. 판별분석 = 판별식 도출 → 집단 예측
  6. t-SNE = 고차원 → 2D·3D 시각화 (군집 구조 확인)
  7. 차원 축소 알고리즘 사용 전 → 각 분석 변수들 간의 독립성 확인

3단원: 파생변수 생성

초압축 암기 요약

  • 파생변수(Derived Variable) = 기존 변수에 특정 조건 혹은 함수 등을 활용하여 새롭게 만들거나 기존 변수들을 조합하여 새롭게 만들어진 변수
  • 요약변수(Summary Variable) = 수집된 정보를 분석에 맞게 종합(aggregate)한 변수. 많은 모델에서 공통으로 사용되어 재활용성 높음
  • 파생변수 추가 방법 8가지: 한 값에서 특징 추출 / 한 레코드 내 값 결합 / 다른 테이블 참조 / 피봇(pivoting) / 거래 레코드 요약 / Customer Signature 요약 / 단순 표현 방식 변환 / 단위 변환

초보자 이해용 상세 설명

파생변수 정의
파생변수란 기존 변수에 특정 조건 혹은 함수 등을 활용하여 새롭게 만들거나 기존 변수들을 조합하여 새롭게 만들어진 변수입니다. 예를 들어 영어 점수와 수학 점수가 있을 때 두 점수의 평균을 새로운 ‘평균’ 컬럼으로 추가하면 이것이 파생변수입니다.

요약변수 정의
요약변수란 수집된 정보를 분석에 맞게 종합(aggregate)한 변수로, 많은 모델을 공통으로 사용될 수 있어 재활용성이 높습니다. 예시: 상품별 구매금액, 월별 방문횟수 등.

파생변수 추가 방법 8가지 상세

한 값으로부터 특징들을 추출: 날짜로부터 요일을 계산, 신용 카드 번호로부터 신용 카드 발급자를 추출, 주민 번호에서 성별을 추출합니다.

한 레코드(행) 내의 값들을 결합: 회원 가입일과 첫 구매일로부터 경과를 계산합니다.

다른 테이블의 부가적인 정보를 참조: 우편 번호에 따른 인구와 평균 가계 수입, 상품 코드에 대한 계층 구조를 참조합니다.

다수 필드 내에 시간 종속적인 데이터를 피봇(pivoting): 월마다 한 행씩 저장되는 과금 데이터를 각각의 월에 대응하는 필드로 변환합니다.

거래 레코드들을 요약: 월간/연간 총 구매액을 계산합니다.

Customer Signature 필드들을 요약: 값의 표준화 및 서열화를 수행합니다.

단순한 표현 방식으로 변환: 남성, 여성 성별의 수치화(남1, 여0).

단위 변환: 연간 구매 금액 단위의 변환.

시험 출제 포인트
파생변수와 요약변수의 차이를 구분하는 문제가 출제됩니다. 파생변수 = 새롭게 만든 변수, 요약변수 = 종합(aggregate)한 변수, 재활용성 높음이 핵심 키워드입니다. 파생변수 추가 방법 중 피봇(pivoting)의 예시도 출제됩니다.

시험 핵심 포인트

  1. 파생변수 = 기존 변수 조합·변환으로 새롭게 만든 변수
  2. 요약변수 = 정보를 종합(aggregate)한 변수 / 재활용성 높음
  3. 파생변수 예시: 영어+수학 점수 평균 → 평균 컬럼 생성
  4. 요약변수 예시: 상품별 구매금액, 월별 방문횟수
  5. 피봇(Pivoting) = 시간 종속적 데이터를 필드로 변환
  6. 단순 표현 변환 예시: 남성→1, 여성→0 (수치화)

기본 확인문제 5문제

Q1. 다음 중 차원 축소(Dimensionality Reduction)가 필요한 이유와 가장 거리가 먼 것은?

① 차원의 저주(데이터 품귀 현상)를 해결하기 위해
② 다중공선성 문제를 해결하기 위해
③ 분석 효율성과 효과성을 높이기 위해
④ 결측값을 자동으로 보완하기 위해

Q2. 다음 중 PCA(주성분 분석)에 대한 설명으로 올바른 것은?

① 개체들 사이의 유사성을 2D·3D로 시각화하는 방법이다.
② 데이터에 잠재적 변수가 존재한다고 가정하여 잠재요인을 도출하는 기법이다.
③ 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법이다.
④ M×N 차원의 행렬 데이터에서 특이값을 추출하는 기법이다.

Q3. 다음 중 파생변수(Derived Variable)와 요약변수(Summary Variable)에 대한 설명으로 올바른 것은?

① 파생변수는 수집된 정보를 종합(aggregate)한 변수이고, 요약변수는 기존 변수를 조합하여 새롭게 만든 변수이다.
② 요약변수는 재활용성이 낮아 특정 모델에서만 사용한다.
③ 파생변수는 기존 변수에 조건이나 함수를 적용하여 새롭게 만든 변수이고, 요약변수는 정보를 종합한 변수로 재활용성이 높다.
④ 파생변수와 요약변수는 동일한 개념이다.

Q4. 다음 중 t-SNE에 대한 설명으로 올바른 것은?

① 집단을 구분하는 판별식을 도출하여 소속 집단을 예측한다.
② M×N 행렬 데이터에서 특이값을 추출하여 데이터를 축약한다.
③ 고차원 데이터를 2차원 또는 3차원의 저차원 데이터로 시각화한다.
④ 개체들의 유사성·비유사성을 측정하여 공간상에 점으로 표현하는 방법이다.

Q5. 다음 중 파생변수 추가 방법의 예시로 올바르지 않은 것은?

① 날짜로부터 요일을 계산
② 회원 가입일과 첫 구매일로부터 경과를 계산
③ 결측값을 평균값으로 대치
④ 남성·여성 성별을 수치화(남1, 여0)


기본문제 해설

Q1 정답: ④
결측값 보완은 데이터 정제(결측값 처리)에 해당하며 차원 축소의 목적이 아닙니다. 차원 축소는 차원의 저주 해결, 다중공선성 완화, 분석 효율성·정확성 향상이 목적입니다.

Q2 정답: ③
PCA는 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 기법입니다. ①은 MDS, ②는 요인분석, ④는 SVD의 설명입니다.

Q3 정답: ③
파생변수는 기존 변수에 조건·함수를 적용하여 새롭게 만든 변수이고, 요약변수는 수집 정보를 종합(aggregate)한 변수로 재활용성이 높습니다. ①은 파생변수와 요약변수의 설명이 반대로 서술되었습니다.

Q4 정답: ③
t-SNE는 고차원 데이터를 2차원 또는 3차원의 저차원 데이터로 시각화하는 방법입니다. ①은 판별분석, ②는 SVD, ④는 MDS의 설명입니다.

Q5 정답: ③
결측값을 평균값으로 대치하는 것은 결측값 처리(데이터 정제) 기법이며, 파생변수 추가 방법이 아닙니다. 나머지는 모두 파생변수 추가 방법에 해당합니다.


고난도 확인문제 3문제

HQ1. 다음 차원 축소 기법과 설명이 올바르게 연결된 것을 모두 고른 것은?

(가) PCA — 고차원 공간을 선형 연관성이 없는 저차원으로 변환, 주성분 생성
(나) 요인분석 — M×N 행렬에서 특이값을 추출하여 데이터를 축약하는 기법
(다) MDS — 개체 간 유사성·비유사성을 측정하여 2D·3D 공간상의 점으로 표현
(라) t-SNE — 잠재적 변수를 가정하여 관찰 데이터로 잠재요인을 도출하는 기법

① (가), (다)
② (가), (나), (다)
③ (나), (다), (라)
④ (가), (나), (다), (라)

HQ2. 다음 중 특성 추출(Feature Extraction)과 특성 선택(Feature Selection)에 대한 비교 설명으로 올바른 것은?

① 특성 추출은 기존 변수 중 중요한 변수를 선택하고 나머지를 제거하는 방법이다.
② 특성 선택은 기존 변수들을 조합하여 새로운 변수(주성분)를 만드는 방법이다.
③ 특성 추출은 기존 변수들의 선형 결합으로 새로운 특성을 만들어 정보를 최대한 보존하며 차원을 줄인다.
④ 특성 추출과 특성 선택은 동일한 방법으로 결과도 동일하다.

HQ3. 다음 파생변수 생성 사례에서 사용된 파생변수 추가 방법이 올바르게 연결된 것은?

(가) 월마다 한 행씩 저장되는 과금 데이터를 각 월에 대응하는 필드로 변환
(나) 주민등록번호에서 성별 정보를 추출하여 새로운 컬럼 생성
(다) 회원 가입일과 첫 구매일의 차이로 ‘가입 후 첫 구매까지 경과일’ 컬럼 생성

① (가) 피봇 / (나) 한 값에서 특징 추출 / (다) 한 레코드 내 값 결합
② (가) 거래 레코드 요약 / (나) 단위 변환 / (다) 다른 테이블 참조
③ (가) 피봇 / (나) 단위 변환 / (다) 한 값에서 특징 추출
④ (가) 한 레코드 내 값 결합 / (나) 한 값에서 특징 추출 / (다) 피봇


고난도 해설 (풀이과정 포함)

HQ1 정답: ①
풀이: (가) PCA의 정확한 설명 → 맞습니다. (나) M×N 행렬에서 특이값 추출은 SVD(특이값 분解)의 설명입니다. 요인분석은 잠재적 변수 가정·도출이 핵심 → 틀린 연결. (다) MDS의 정확한 설명 → 맞습니다. (라) 잠재적 변수 가정·도출은 요인분석의 설명입니다. t-SNE는 고차원 데이터의 2D·3D 시각화가 핵심 → 틀린 연결. 올바른 것은 (가), (다) → 정답 ①.

HQ2 정답: ③
풀이: ①은 특성 추출이 아닌 특성 선택의 설명입니다. ②는 특성 선택이 아닌 특성 추출의 설명입니다. ③ 특성 추출은 기존 변수들의 선형 결합으로 새로운 특성을 만들어 정보를 최대한 보존하며 차원을 줄이는 것이 맞습니다 → 정답. ④ 두 방법은 접근 방식과 결과가 다릅니다. 정답 ③.

HQ3 정답: ①
풀이: (가) 월별 과금 데이터를 월별 필드로 변환 → 시간 종속적 데이터를 필드로 변환 = 피봇(Pivoting). (나) 주민등록번호에서 성별 추출 → 한 값(주민번호)에서 특징(성별) 추출 = 한 값에서 특징 추출. (다) 가입일과 첫 구매일의 차이로 새 컬럼 생성 → 한 레코드 안의 두 값을 결합 = 한 레코드 내 값 결합. 정답 ①.


차원 축소 기법 비교 요약표

기법핵심 키워드특징
PCA(주성분 분석)선형 결합, 주성분고차원 → 저차원, 분산 최대 보존
요인분석(FA)잠재적 변수 가정잠재요인 도출, PCA 포함
SVD(특이값 분解)M×N 행렬, 특이값 추출행렬 데이터 효율적 축약
MDS(다차원 척도법)유사성·비유사성, 2D·3D집단화 시각적 표현
판별분석판별식 도출집단 구분 및 예측
t-SNE2D·3D 시각화고차원 군집 구조 시각화

마무리 정리

2편에서는 차원 축소의 필요성(차원의 저주·다중공선성), 특성 추출 vs 특성 선택, 차원 축소 6가지 기법(PCA·FA·SVD·MDS·판별분석·t-SNE), 파생변수와 요약변수의 차이, 파생변수 추가 방법 8가지까지 완벽 정리했습니다. 1편(변수 유형·변수 선택 기법)과 함께 반복 학습하면 분석 변수 처리 단원 고득점을 달성할 수 있습니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다