빅데이터분석기사 필기 데이터 적재 단원은 ETL, ODS, 데이터 웨어하우스(DW), 데이터 레이크(Data Lake)의 개념과 구조를 묻는 문제가 집중 출제됩니다. 이 글에서는 각 개념의 정의, 특징, 차이점을 초보자도 이해할 수 있도록 완벽 정리하고, 기출 유형 문제와 해설까지 제공합니다. 빅데이터분석기사 합격을 위한 핵심 요약을 지금 바로 확인하세요.
시험 합격 전략 요약
데이터 적재는 개념 구분형 문제가 핵심입니다. 다음 세 가지를 반드시 구분하여 암기해야 합니다.
- ETL과 ELT의 순서 차이 (적재 시점이 다름)
- 데이터 웨어하우스(DW)의 4가지 특징 키워드: 주제 중심, 통합 구조, 시계열성, 비휘발성(영속성)
- 데이터 레이크 vs 데이터 웨어하우스의 핵심 차이: Raw data(원형) 저장 vs 변환 후 저장
보기에서 DW와 Data Lake의 특징을 서로 뒤바꿔 출제하는 패턴이 자주 등장하므로, 각 키워드를 확실히 연결해 두어야 합니다.
1단원: 데이터 적재(Data Loading) 개요
초압축 암기 요약
- 데이터 적재 = 수집 데이터(정형+비정형)를 비즈니스 목적에 유용한 상태로 변환하는 과정
- 저장 방식: RDBMS, NoSQL, 분산파일시스템
- 전통적 적재 환경 = 데이터 웨어하우스(DW) 중심
- 빅데이터 적재 환경 = 데이터 레이크(Data Lake) 중심
- ETL = Extract(추출) → Transform(변환) → Load(적재)
- ODS = 다양한 원천(Source)에서 추출·통합한 데이터베이스 (추가 작업용)
초보자 이해용 상세 설명
정의
데이터 적재란 구조화된 데이터와 구조화되지 않은 데이터를 비롯한 전체 수집 데이터를 가져와, 비즈니스 목적에 실질적으로 유용한 상태로 변환하는 과정 전체를 말합니다.
원리
원천 데이터는 그 자체로는 분석에 사용하기 어렵습니다. 형식이 제각각이고 중복도 많기 때문입니다. 그래서 추출(Extract) → 변환(Transform) → 적재(Load)라는 ETL 프로세스를 거쳐 분석 가능한 상태로 만든 뒤 데이터 웨어하우스나 데이터 레이크에 저장합니다.
예시
온라인 쇼핑몰이 주문 데이터(RDBMS), 배송 데이터(외부 API), 고객 리뷰(NoSQL)를 하나의 데이터 웨어하우스에 통합하는 과정이 ETL 기반 데이터 적재의 대표적 사례입니다.
시험 출제 포인트
“비즈니스 목적에 실질적으로 유용한 상태로 변환”이라는 표현이 데이터 적재의 핵심 키워드입니다. 단순 저장이나 수집과 구분되는 포인트입니다.
시험 핵심 포인트
- 데이터 적재 저장 방식 3가지: RDBMS, NoSQL, 분산파일시스템
- ETL = Extract → Transform → Load (순서 반드시 암기)
- ETL은 데이터 소스 시스템에서 데이터를 추출해 비즈니스 데이터로 변환하는 프로세스
- ODS(Operational Data Store) = 추가 작업을 위해 다양한 원천에서 추출·통합한 DB
- ODS는 DW에 데이터를 전달하기 전 중간 저장소 역할을 한다.
2단원: 데이터 웨어하우스(Data Warehouse, DW)
초압축 암기 요약
- DW = 사용자 의사결정 지원을 위해 기간 시스템 DB에 축적된 데이터를 공통 형식으로 변환·관리하는 DB
- DW 4대 특징: 주제 중심(Subject-oriented), 통합 구조(Integrated), 시계열성(Time-variant), 비휘발성/영속성(Non-volatile)
- 데이터 흐름: 운영 Data + 외부 Data → ETL(추출·변환·전송) → ODS → DW → Data Mart → SEM / BI / OLAP
- 모델링 방법: 스타 스키마(조인스키마, 다차원 테이블), 스노우 플레이크(정규화)
초보자 이해용 상세 설명
정의
데이터 웨어하우스(DW)란 사용자의 의사결정에 도움을 주기 위해, 기간 시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환하여 관리하는 데이터베이스입니다. 쉽게 말해, 기업 내 여러 곳에 흩어진 데이터를 한 곳에 모아 분석할 수 있도록 정리해 놓은 대형 창고와 같습니다.
원리 — DW 4대 특징 상세
① 주제 중심(Subject-oriented)
업무 기능 중심이 아니라 분석하고자 하는 주제(고객, 매출, 제품 등) 중심으로 데이터를 구성합니다.
② 통합 구조(Integrated)
여러 이기종 시스템의 데이터를 하나의 일관된 형식으로 통합하여 저장합니다.
③ 시계열성(Time-variant)
데이터에 시간 정보가 포함되어 있어, 특정 시점의 데이터를 조회하거나 시간 흐름에 따른 변화를 분석할 수 있습니다.
④ 비휘발성/영속성(Non-volatile)
한 번 저장된 데이터는 삭제되거나 수정되지 않고 그대로 유지됩니다. 운영계 데이터베이스와의 가장 큰 차이점입니다.
예시
대형 유통사가 5년간의 매출 데이터(시계열성)를 지역별·상품군별(주제 중심)로 통합(통합 구조)하여 영구 보존(비휘발성)하는 분석용 데이터베이스가 DW입니다.
시험 출제 포인트
DW의 4대 특징은 그대로 문제 보기로 출제됩니다. 특히 ‘비휘발성’과 ‘시계열성’의 개념을 혼동하지 않도록 주의해야 합니다. 비휘발성은 “삭제·수정 없이 유지”, 시계열성은 “시간 정보 포함”으로 확실히 구분해야 합니다.
모델링 방법
DW 모델링은 두 가지 방식이 사용됩니다. 스타 스키마(Star Schema)는 조인 스키마라고도 불리며 다차원 테이블 구조로 설계됩니다. 스노우 플레이크(Snowflake Schema)는 정규화를 적용한 구조입니다.
시험 핵심 포인트
- DW 목적: 사용자 의사결정 지원
- DW 4대 특징 키워드: 주제 중심 / 통합 구조 / 시계열성 / 비휘발성(영속성)
- 비휘발성 = 데이터가 삭제·수정되지 않고 영구 보존
- 시계열성 = 시간 정보 포함, 특정 시점 조회 가능
- DW → Data Mart → SEM / BI / OLAP으로 연결되는 데이터 흐름 암기
- 스타 스키마 = 조인스키마 = 다차원 테이블 구조
- 스노우 플레이크 = 정규화 구조
3단원: 데이터 레이크(Data Lake)
초압축 암기 요약
- 데이터 레이크 = 대규모 다양한 원시 데이터 세트를 기본 형식(Raw data)으로 저장하는 데이터 레파지토리
- 정형+비정형 원형 데이터(Raw data)를 모두 저장
- DW와의 핵심 차이: DW는 변환 후 저장 / Data Lake는 원형 그대로 저장
- Data Lake 특징: ETL·ELT 환경 적용, 스키마 구성(분석 시), 유연성(다양한 모델링), 확장성(다양한 데이터 형태)
- 구성 흐름: ACQUIRE → ORGANIZE(Data Lake Management Platform) → ANALYZE → DELIVER
초보자 이해용 상세 설명
정의
데이터 레이크(Data Lake)란 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 레파지토리의 한 유형입니다. 다양한 형태(정형+비정형)의 원형 데이터(Raw data)들을 모아 두는 저장소의 집합 장소라고 이해하면 됩니다.
원리
데이터 웨어하우스가 정형화된 데이터만 받아 변환 후 저장하는 방식이라면, 데이터 레이크는 데이터를 수집 단계에서 원형 그대로 저장합니다. 분석이 필요할 때 비로소 스키마를 구성하고(Schema-on-Read) 원하는 형태로 가공합니다.
예시
SNS 게시물(비정형), 센서 데이터(반정형), 거래 기록(정형)을 모두 원형 그대로 하나의 거대한 저장소(Data Lake)에 쌓아두고, 분석 목적에 맞게 그때그때 꺼내어 가공하는 방식입니다.
시험 출제 포인트
DW와 Data Lake의 차이를 묻는 문제가 자주 출제됩니다. DW = 변환(Transform) 후 저장 / Data Lake = Raw data(원형) 그대로 저장이라는 핵심 대비를 반드시 기억해야 합니다. 또한 Data Lake의 특징인 ETL과 ELT 모두 지원한다는 점도 출제 포인트입니다.
시험 핵심 포인트
- Data Lake = 원형 데이터(Raw data) 저장소, 정형+비정형 모두 포함
- DW vs Data Lake: DW는 변환 후 저장, Data Lake는 원형 그대로 저장
- Data Lake 특징 4가지: ETL·ELT 환경 적용 / 스키마 구성(분석 시) / 유연성 / 확장성
- Data Lake 흐름: ACQUIRE → ORGANIZE → ANALYZE → DELIVER
- Data Lake는 스키마를 분석 시점에 구성한다 (Schema-on-Read 개념)
기본 확인문제 5문제
Q1. 다음 중 ETL에 대한 설명으로 올바른 것은?
① Extract → Load → Transform 순서로 처리된다.
② 비즈니스 데이터를 원천 시스템에 저장하는 프로세스이다.
③ 추출(Extract), 변환(Transform), 적재(Load)의 세 단계로 구성된 데이터 처리 프로세스이다.
④ 데이터 레이크에서만 사용하는 기술이다.
Q2. 다음 중 데이터 웨어하우스(DW)의 4대 특징이 아닌 것은?
① 주제 중심(Subject-oriented)
② 통합 구조(Integrated)
③ 실시간 업데이트(Real-time Update)
④ 시계열성(Time-variant)
Q3. 다음 중 ODS(Operational Data Store)에 대한 설명으로 올바른 것은?
① 최종 분석 결과를 저장하는 데이터베이스이다.
② 데이터에 추가 작업을 위해 다양한 원천에서 데이터를 추출·통합한 데이터베이스이다.
③ 비정형 데이터만 저장하는 저장소이다.
④ 데이터 레이크의 다른 명칭이다.
Q4. 다음 중 데이터 레이크(Data Lake)의 특징으로 올바른 것은?
① 정형 데이터만 저장할 수 있다.
② 데이터를 변환(Transform)한 후에만 저장이 가능하다.
③ 대규모의 다양한 원시 데이터(Raw data)를 기본 형식으로 저장한다.
④ 스타 스키마와 스노우 플레이크 스키마로만 구성된다.
Q5. 데이터 웨어하우스의 모델링 방법 중 정규화를 적용한 구조는?
① 스타 스키마(Star Schema)
② 스노우 플레이크(Snowflake Schema)
③ 조인 스키마(Join Schema)
④ 다차원 스키마(Multi-dimensional Schema)
기본문제 해설
Q1 정답: ③
ETL은 Extract(추출) → Transform(변환) → Load(적재) 순서입니다. ①은 순서가 틀렸고, ②는 ETL의 목적과 반대이며, ④는 DW에서도 사용하는 기술입니다.
Q2 정답: ③
DW의 4대 특징은 주제 중심, 통합 구조, 시계열성, 비휘발성(영속성)입니다. ‘실시간 업데이트’는 DW의 특징이 아니며, 오히려 비휘발성(Non-volatile)과 반대되는 개념입니다.
Q3 정답: ②
ODS는 데이터에 추가 작업을 위해 다양한 데이터 원천(Source)들로부터 데이터를 추출·통합한 데이터베이스입니다. DW로 데이터를 전달하기 전 중간 단계 역할을 합니다.
Q4 정답: ③
데이터 레이크는 대규모의 다양한 원시 데이터(Raw data)를 기본 형식으로 저장하는 저장소입니다. 정형+비정형 모두 저장 가능하며, 변환 없이 원형 그대로 저장하는 것이 핵심입니다.
Q5 정답: ②
스노우 플레이크(Snowflake Schema)는 정규화를 적용한 구조입니다. 스타 스키마(= 조인 스키마)는 다차원 테이블 구조로 비정규화된 형태입니다.
고난도 확인문제 3문제
HQ1. 다음 중 데이터 웨어하우스(DW)와 데이터 레이크(Data Lake)의 차이에 대한 설명으로 가장 올바른 것은?
① DW는 원형 데이터(Raw data)를 그대로 저장하고, Data Lake는 변환 후 저장한다.
② DW는 정형·비정형 데이터를 모두 저장하고, Data Lake는 정형 데이터만 저장한다.
③ DW는 데이터를 변환(Transform)한 후 저장하고, Data Lake는 원형 데이터(Raw data) 그대로 저장한다.
④ DW와 Data Lake는 동일한 아키텍처를 사용하며 저장 방식만 다르다.
HQ2. 다음 보기 중 데이터 웨어하우스(DW)의 4대 특징과 그 설명이 올바르게 연결된 것을 모두 고른 것은?
(가) 주제 중심 — 업무 기능이 아닌 분석 주제(고객, 매출 등) 중심으로 데이터를 구성
(나) 통합 구조 — 한 번 저장된 데이터는 삭제·수정 없이 영구 보존
(다) 시계열성 — 시간 정보를 포함하여 특정 시점의 데이터 조회 가능
(라) 비휘발성 — 여러 이기종 시스템의 데이터를 하나의 형식으로 통합 저장
① (가), (다)
② (나), (라)
③ (가), (나), (다)
④ (가), (나), (다), (라)
HQ3. 다음 중 데이터 적재와 관련된 설명으로 틀린 것은?
① ETL은 Extract, Transform, Load의 세 단어 축약어이다.
② 데이터 레이크는 ETL과 ELT 환경 모두 적용할 수 있다.
③ ODS는 최종 분석 결과를 외부에 제공하기 위한 데이터 마트이다.
④ 데이터 웨어하우스의 모델링 방법으로 스타 스키마와 스노우 플레이크가 있다.
고난도 해설 (풀이과정 포함)
HQ1 정답: ③
풀이: DW는 ETL을 통해 데이터를 추출·변환한 후에 저장합니다. 반면 Data Lake는 데이터를 변환 없이 원형(Raw data) 그대로 저장하고, 분석 시점에 스키마를 구성합니다(Schema-on-Read). ①은 DW와 Data Lake의 설명이 반대로 서술되어 있으므로 오답입니다.
HQ2 정답: ①
풀이: (가) 주제 중심의 설명은 정확합니다. (나) ‘한 번 저장된 데이터는 영구 보존’은 주제 중심이 아니라 비휘발성(Non-volatile)의 설명으로, 통합 구조와 연결하면 틀린 연결입니다. (다) 시계열성의 설명은 정확합니다. (라) ‘이기종 시스템 데이터 통합’은 비휘발성이 아닌 통합 구조(Integrated)의 설명입니다. 따라서 올바른 연결은 (가), (다) → 정답 ①.
HQ3 정답: ③
풀이: ①은 ETL 정의로 맞습니다. ②는 데이터 레이크의 특징으로 맞습니다. ③ ODS(Operational Data Store)는 최종 분석 결과를 외부에 제공하는 데이터 마트가 아니라, 다양한 원천에서 데이터를 추출·통합하여 추가 작업에 활용하기 위한 중간 단계 데이터베이스입니다. 데이터 마트는 DW에서 특정 목적을 위해 추출된 데이터 부분 집합입니다. ④는 맞는 설명입니다. 따라서 정답은 ③.
핵심 개념 비교 요약표
| 구분 | 데이터 웨어하우스(DW) | 데이터 레이크(Data Lake) |
|---|---|---|
| 저장 데이터 | 변환(Transform) 후 정형 데이터 | 원형(Raw data), 정형+비정형 모두 |
| 스키마 구성 | 저장 전 스키마 구성 (Schema-on-Write) | 분석 시 스키마 구성 (Schema-on-Read) |
| 주요 특징 | 주제 중심, 통합, 시계열성, 비휘발성 | ETL·ELT 적용, 유연성, 확장성 |
| 모델링 | 스타 스키마, 스노우 플레이크 | 다양한 모델링 지원 |
| 적합 환경 | 전통적 데이터 분석 환경 | 빅데이터 분석 환경 |
다음 편 예고
1편에서는 데이터 적재의 핵심 개념인 ETL, ODS, 데이터 웨어하우스, 데이터 레이크까지 완벽 정리했습니다. 빅데이터분석기사 데이터 적재·저장 2편에서는 RDBMS의 ACID 속성, NoSQL 4가지 종류와 대표 DB, CAP 이론, 분산파일시스템(GFS·HDFS)을 집중적으로 다룹니다. 특히 CAP 이론은 시험에서 고난도 문제로 자주 등장하는 핵심 주제입니다.
