빅데이터분석기사 필기 완전정복 (분석 변수 처리 1편) — 변수 유형 & 변수 선택 기법 필터·래퍼·임베디드 핵심 요약

빅데이터분석기사 필기 변수 선택 단원은 변수의 유형(독립·종속·질적·양적·명목·서열·등간·비율), 분석 변수 처리 5가지 유형, 변수 선택 3가지 기법(필터·래퍼·임베디드)이 핵심 출제 영역입니다. 이 글에서는 초보자도 이해할 수 있도록 완벽 정리하고 기출 유형 문제와 해설까지 제공합니다. 빅데이터분석기사 합격을 위한 변수 선택 완전 정복을 지금 확인하세요.


시험 합격 전략 요약

이 단원에서 반드시 잡아야 할 포인트는 세 가지입니다.

  • 변수 유형의 계층 구조: 질적 변수(명목·서열) / 양적 변수(등간·비율) 분류 체계를 정확히 암기
  • 등간변수 vs 비율변수의 핵심 차이: 등간은 절대 영점 없음 / 비율은 절대 영점 있음(사칙연산 가능)
  • 변수 선택 3가지 기법의 특징 구분: 필터(빠름·독립적) / 래퍼(느림·과적합 가능) / 임베디드(규제 적용·과적합 최소화)

래퍼 기법의 전진 선택법·후진 제거법·단계별 선택법의 방향 차이도 자주 출제됩니다.


1단원: 분석 변수 처리의 이해

초압축 암기 요약

  • 분석 변수 처리 = 확보한 데이터를 사용하여 정보를 추가하는 일련의 과정, 새로운 데이터(관측치나 변수)를 추가하지 않고 기존 데이터를 더 유용하게 만드는 방법
  • 유형 5가지: 변수 선택(Variable Selection) / 차원 축소(Dimensionality Reduction) / 파생변수 생성 / 데이터 변환(Data Transformation) / 불균형 데이터 처리(Data Balancing)

분석 변수 처리 5가지 유형 상세

① 변수 선택(Variable Selection)
해결하고자 하는 문제에 대해 유의미한 변수를 선택하는 과정입니다.

② 차원 축소(Dimensionality Reduction)
샘플링, 차원 축소, 특징(feature) 선택 및 추출을 통해 데이터 크기를 줄이는 작업입니다.

③ 파생변수(Derived Variance) 생성
기존 변수에 특정 조건 혹은 함수 등을 활용하여 새롭게 만들거나 기존 변수들을 조합하여 새롭게 변수를 만드는 과정입니다.

④ 데이터 변환(Data Transformation) = 변수 변환
데이터를 한 형식이나 구조에서 다른 형식이나 구조로 변환합니다. 데이터 스케일링(표준화, 정규화, 이산화, 집계 등)을 이용해 데이터(변수)를 변환하거나, 비정형 데이터를 정형 데이터로 변환합니다.

⑤ 불균형 데이터 처리(Data Balancing)
특정 클래스의 데이터가 타 클래스의 데이터 수와 너무 차이가 날 때, 샘플링을 통해 이 비율을 맞추는 작업입니다.

시험 핵심 포인트

  1. 분석 변수 처리 = 기존 데이터를 더 유용하게 만드는 방법 (새 데이터 추가 아님)
  2. 변수 선택 = 유의미한 변수 선택
  3. 차원 축소 = 샘플링·특징 선택으로 데이터 크기 축소
  4. 데이터 변환 = 스케일링(표준화·정규화·이산화) 포함
  5. 불균형 데이터 처리 = 샘플링으로 클래스 비율 조정

2단원: 변수의 유형

초압축 암기 요약

  • 변수(Variable) = 관찰된 항목이나 대상의 특성을 수치화하기 위해 쓰이는 속성
  • 인과 관계: 독립변수(원인·입력) vs 종속변수(결과·출력)
  • 데이터 특성: 질적 변수(수치화 불가) vs 양적 변수(수치화 가능)
  • 척도 기준: 범주형(명목·서열) = 질적 변수 / 연속형(등간·비율) = 양적 변수
  • 명목변수 = 순서 없음 (성별, 혈액형)
  • 서열변수 = 순서 있음, 간격 불균등 (성적 등위, 인기 순서)
  • 등간변수 = 순서+균등 간격, 절대 영점 없음 (온도, 연도)
  • 비율변수 = 순서+균등+절대 영점, 사칙연산 가능 (무게, 키, 나이, 금액)

초보자 이해용 상세 설명

① 독립변수 vs 종속변수
독립변수(Independent Variable)는 다른 변수에 영향 받지 않고 종속변수에 영향을 주는 변수입니다. 원인, 설명, 예측, 입력, 조작 변수라고도 불립니다. 예시: 키, 몸무게, 취미.
종속변수(Dependent Variable)는 독립 변수로부터 영향을 받는 변수입니다. 반응, 결과, 출력, 목적 변수라고도 불립니다. 예시: 성별(남, 여).

② 질적 변수 vs 양적 변수
질적 변수(Qualitative Variable)는 수치화 되지 않은 자료의 상태입니다. 예시: 성별(남성=1, 여성=2).
양적 변수(Quantitative Variable)는 질적 자료를 객관적인 도구를 이용하여 측정하거나 평가하여 수치화한 것입니다. 예시: 철수의 몸무게 52.5kg.

③ 척도 및 분석 관점의 변수 유형 4가지

명목변수(Nominal Variable): 측정 대상을 분류하기 위해 이름 대신 임의적으로 숫자를 부여한 변수입니다. 숫자 간에 순서나 크기의 의미가 없습니다. 예시: ‘남성’ 집단에는 ‘1’을, 여성 집단에는 ‘2’라는 수치를 부여(같다/다르다).

서열변수(Ordinal Variable): 측정 대상들의 특성을 서열로 나타낸 변수입니다. 순서는 있지만 간격이 균등하지 않습니다. 예시: 아동들의 성적 등위, 키 순서, 맛집 별점 등(작다/크다).

등간변수(Interval Variable) = 간격변수: 측정 대상의 분류와 서열에 관한 정보를 주며 등간성을 갖는 변수입니다. 숫자 자체로는 절대적 의미를 갖지 못하지만 숫자 간의 차이는 절대적 의미를 갖습니다. 예시: 온도와 연도(가감). 0도가 온도가 없다는 의미가 아니므로 절대 영점이 없습니다.

비율변수(Ratio Variable): 분류, 서열, 등간성의 속성을 지닌 등 적도의 특성을 지니면서 절대 영점과 가상 단위를 갖는 변수입니다. 사칙연산이 가능합니다. 예시: 무게와 길이, 나이, 키, 금액, 거리, 넓이.

시험 출제 포인트
등간변수와 비율변수의 차이가 핵심입니다. 절대 영점의 유무가 핵심 구분 기준입니다. 등간변수는 절대 영점 없음(온도 0도 = 온도 없음이 아님), 비율변수는 절대 영점 있음(무게 0kg = 무게 없음).

시험 핵심 포인트

  1. 독립변수 = 원인·입력 / 종속변수 = 결과·출력
  2. 질적 변수 = 수치화 불가 / 양적 변수 = 수치화 가능
  3. 범주형 변수 = 질적 변수 = 명목 + 서열
  4. 연속형 변수 = 양적 변수 = 등간 + 비율
  5. 명목변수 = 순서 없음, 같다/다르다만 판단
  6. 서열변수 = 순서 있음, 간격 불균등
  7. 등간변수 = 간격 균등, 절대 영점 없음 → 가감만 가능
  8. 비율변수 = 간격 균등, 절대 영점 있음 → 사칙연산 가능

3단원: 변수 선택 기법 — 필터·래퍼·임베디드

초압축 암기 요약

  • 변수 선택 3가지 기법: 필터 기법 / 래퍼 기법 / 임베디드 기법
  • 필터(Filter): 특정 모델링 기법에 의존하지 않고 통계적 특성으로 변수 선택. 계산 빠름. 알고리즘: 카이제곱 검정, 정보 이득, 피셔 스코어, 큰 상관계수, 0에 가까운 분산
  • 래퍼(Wrapper): 변수 일부로 모델링 반복 수행 → 결과 확인하며 변수 집합 선택. 계산 느림, 과적합 가능. 전진 선택법 / 후진 제거법 / 단계별 선택법
  • 임베디드(Embedded): 필터+래퍼 결합. 규제(Regularization)로 과적합 줄임. 라쏘 회귀 / 릿지 회귀 / 엘라스틱 넷 / SelectFromModel

초보자 이해용 상세 설명

① 필터 기법(Filter Method)
특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성을 이용해 관련성이 높은 변수를 선택하는 방법입니다. 종속변수와의 상관관계로 관련성을 측정하므로 계산 속도가 빠릅니다.
처리 흐름: 특징 변수의 전체 집합 → 적합 변수 선택 → 알고리즘으로 학습 → 모델 성능 평가
알고리즘: 카이제곱 검정, 정보 이득, 피셔 스코어, 큰 상관계수, 0에 가까운 분산

② 래퍼 기법(Wrapper Method)
변수의 일부만을 사용해 모델링을 수행하고 그 결과를 확인하는 작업을 반복하여 변수 집합을 선택하는 방법입니다. 모델링 과정을 통해 관련성을 측정하므로 계산 속도가 느리고 과적합이 발생할 수 있습니다.
처리 흐름: 특징 변수의 전체 집합 → 하위 집합 선택 ↔ 알고리즘으로 학습 → 모델 성능 평가

전진 선택법(Forward Selection): 변수 없는 상태로 시작, 변수를 하나씩 추가합니다. 변수가 많을 때 사용합니다.
후진 제거법(Backward Elimination): 모든 변수를 가지고 시작, 하나씩 제거합니다.
단계별 선택법(Stepwise Selection): 전진 선택법 + 후진 제거법을 결합한 방법입니다.

③ 임베디드 기법(Embedded Method)
필터 기법과 래퍼 기법을 결합하여 어떤 변수가 가장 크게 기여하는지를 찾아내는 방법으로, 과적합을 줄이기 위해 내부적으로 규제(Regularization)를 가하는 방법입니다. 모델 자체의 파라미터 값에 따라 변수 선택이 가능한 기법이며 과적합을 최소화합니다.

라쏘 회귀(LASSO Regression): 가중치의 절대값 합을 최소화하는 제약사항을 적용합니다.
릿지 회귀(Ridge Regression): 가중치의 제곱합을 최소화하는 제약사항을 적용합니다.
엘라스틱 넷(Elastic Net): 라쏘 회귀 + 릿지 회귀를 결합한 방법입니다.
SelectFromModel: 의사결정 나무 트리를 사용합니다.

시험 출제 포인트
세 기법의 계산 속도와 과적합 여부가 핵심 구분 포인트입니다. 필터(빠름·과적합 적음), 래퍼(느림·과적합 가능), 임베디드(규제로 과적합 최소화). 라쏘는 절대값, 릿지는 제곱합이 키워드입니다.

시험 핵심 포인트

  1. 필터 기법 = 통계적 특성 기반 / 계산 빠름 / 모델 독립적
  2. 래퍼 기법 = 모델링 반복 / 계산 느림 / 과적합 가능
  3. 임베디드 기법 = 필터+래퍼 결합 / 규제(Regularization) / 과적합 최소화
  4. 전진 선택법 = 변수 없는 상태에서 시작, 하나씩 추가
  5. 후진 제거법 = 모든 변수에서 시작, 하나씩 제거
  6. 단계별 선택법 = 전진 선택법 + 후진 제거법
  7. 라쏘(LASSO) = 가중치 절대값 합 최소화
  8. 릿지(Ridge) = 가중치 제곱합 최소화
  9. 엘라스틱 넷 = 라쏘 + 릿지

기본 확인문제 5문제

Q1. 다음 중 등간변수(Interval Variable)에 대한 설명으로 올바른 것은?

① 절대 영점이 존재하여 사칙연산이 가능하다.
② 측정 대상을 순서로만 나타내며 간격이 불균등하다.
③ 숫자 간의 차이는 절대적 의미를 갖지만 절대 영점은 없다.
④ 임의적으로 숫자를 부여한 변수로 순서나 크기의 의미가 없다.

Q2. 다음 중 변수 선택 기법 중 래퍼 기법(Wrapper Method)에 대한 설명으로 올바른 것은?

① 특정 모델링 기법에 의존하지 않고 통계적 특성으로 변수를 선택한다.
② 과적합을 줄이기 위해 내부적으로 규제(Regularization)를 적용한다.
③ 변수의 일부만을 사용해 모델링을 반복 수행하며 결과를 확인하여 변수 집합을 선택한다.
④ 계산 속도가 가장 빠른 변수 선택 기법이다.

Q3. 다음 중 전진 선택법(Forward Selection)에 대한 설명으로 올바른 것은?

① 모든 변수를 포함한 상태에서 시작하여 하나씩 제거한다.
② 변수 없는 상태에서 시작하여 변수를 하나씩 추가한다.
③ 전진 선택법과 후진 제거법을 동시에 적용하는 방법이다.
④ 임베디드 기법에서만 사용하는 방법이다.

Q4. 다음 중 비율변수(Ratio Variable)의 예시로 가장 적합한 것은?

① 온도(섭씨)
② 연도(년)
③ 아동의 성적 등위
④ 철수의 키(cm)

Q5. 다음 중 임베디드 기법(Embedded Method)에 해당하는 알고리즘이 아닌 것은?

① 라쏘 회귀(LASSO Regression)
② 릿지 회귀(Ridge Regression)
③ 카이제곱 검정
④ 엘라스틱 넷(Elastic Net)


기본문제 해설

Q1 정답: ③
등간변수는 숫자 간의 차이(간격)는 절대적 의미를 갖지만 절대 영점이 없어 사칙연산은 불가능합니다. ①은 비율변수, ②는 서열변수, ④는 명목변수의 설명입니다.

Q2 정답: ③
래퍼 기법은 변수의 일부만으로 모델링을 반복 수행하며 결과를 확인하여 최적 변수 집합을 선택하는 방법입니다. ①은 필터 기법, ②는 임베디드 기법, ④도 필터 기법의 특징입니다.

Q3 정답: ②
전진 선택법은 변수가 없는 상태에서 시작하여 유의미한 변수를 하나씩 추가합니다. ①은 후진 제거법, ③은 단계별 선택법의 설명입니다.

Q4 정답: ④
철수의 키는 절대 영점(0cm = 키 없음)이 존재하고 사칙연산이 가능하므로 비율변수입니다. 온도(①)와 연도(②)는 절대 영점이 없으므로 등간변수, 성적 등위(③)는 서열변수입니다.

Q5 정답: ③
카이제곱 검정은 임베디드 기법이 아닌 필터 기법의 알고리즘입니다. 임베디드 기법에는 라쏘 회귀, 릿지 회귀, 엘라스틱 넷, SelectFromModel이 해당됩니다.


고난도 확인문제 3문제

HQ1. 다음 변수들을 척도 유형에 맞게 올바르게 분류한 것은?

(가) 혈액형(A, B, O, AB)
(나) 학생들의 시험 성적 순위
(다) 체온(36.5도, 37.2도)
(라) 월별 매출액(만원)

① (가) 명목 / (나) 서열 / (다) 등간 / (라) 비율
② (가) 서열 / (나) 명목 / (다) 비율 / (라) 등간
③ (가) 명목 / (나) 등간 / (다) 서열 / (라) 비율
④ (가) 서열 / (나) 명목 / (다) 등간 / (라) 비율

HQ2. 다음 중 변수 선택 3가지 기법에 대한 비교 설명으로 틀린 것은?

① 필터 기법은 특정 모델링 기법에 의존하지 않아 계산 속도가 빠르다.
② 래퍼 기법은 모델링 과정을 반복하여 관련성을 측정하므로 계산 속도가 느리다.
③ 임베디드 기법은 규제(Regularization)를 내부적으로 적용하여 과적합을 최소화한다.
④ 래퍼 기법은 필터 기법보다 과적합이 발생할 가능성이 낮다.

HQ3. 다음 중 라쏘 회귀(LASSO)와 릿지 회귀(Ridge)의 차이에 대한 설명으로 올바른 것은?

① 라쏘 회귀는 가중치의 제곱합을 최소화하고, 릿지 회귀는 가중치의 절대값 합을 최소화한다.
② 라쏘 회귀는 가중치의 절대값 합을 최소화하고, 릿지 회귀는 가중치의 제곱합을 최소화한다.
③ 라쏘 회귀와 릿지 회귀는 동일한 제약사항을 사용하며 엘라스틱 넷에만 차이가 있다.
④ 엘라스틱 넷은 라쏘 회귀와 필터 기법을 결합한 방법이다.


고난도 해설 (풀이과정 포함)

HQ1 정답: ①
풀이: (가) 혈액형은 분류 목적으로 숫자를 부여하며 순서 의미 없음 → 명목변수. (나) 성적 순위는 순서는 있지만 간격이 균등하지 않음 → 서열변수. (다) 체온(섭씨)은 0도가 온도 없음을 의미하지 않으므로 절대 영점 없음 → 등간변수. (라) 월별 매출액은 0원 = 매출 없음으로 절대 영점 있고 사칙연산 가능 → 비율변수. 정답 ①.

HQ2 정답: ④
풀이: ①②③은 모두 정확한 설명입니다. ④ 래퍼 기법은 모델링을 반복 수행하는 과정에서 과적합이 발생할 가능성이 높습니다. 필터 기법보다 과적합 가능성이 낮다는 표현이 틀렸습니다. 정답 ④.

HQ3 정답: ②
풀이: 라쏘(LASSO) = L1 정규화 = 가중치 절대값 합 최소화. 릿지(Ridge) = L2 정규화 = 가중치 제곱합 최소화. ①은 라쏘와 릿지의 설명이 반대로 서술됩니다. ③은 두 기법의 제약사항이 다르므로 틀렸습니다. ④ 엘라스틱 넷은 라쏘 + 릿지를 결합한 것입니다. 정답 ②.


변수 유형 비교 요약표

대분류유형특징예시
범주형(질적)명목변수순서 없음, 같다/다르다혈액형, 성별, 지역
서열변수순서 있음, 간격 불균등성적 등위, 인기 순위
연속형(양적)등간변수균등 간격, 절대 영점 없음온도(섭씨), 연도
비율변수균등 간격, 절대 영점 있음, 사칙연산무게, 키, 나이, 금액
기법특징계산 속도과적합대표 알고리즘
필터(Filter)통계적 특성 기반, 모델 독립적빠름낮음카이제곱, 정보이득, 피셔스코어
래퍼(Wrapper)모델링 반복 수행느림높음전진선택, 후진제거, 단계별
임베디드(Embedded)필터+래퍼 결합, 규제 적용중간최소화LASSO, Ridge, Elastic Net

다음 편 예고

1편에서는 분석 변수 처리 5가지 유형, 변수 유형(독립·종속·질적·양적·명목·서열·등간·비율), 변수 선택 3가지 기법(필터·래퍼·임베디드)까지 완벽 정리했습니다. 빅데이터분석기사 분석 변수 처리 2편에서는 차원 축소 기법(PCA·FA·SVD·MDS·판별분석·t-SNE)과 파생변수 생성 방법을 집중 공략합니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다