🏗️ 1장. 데이터 웨어하우스와 ETL 개요
📌 핵심 개념
- 데이터 웨어하우스 (DWH): 구조화된 데이터를 저장하고 분석하기 위한 저장소
- 데이터 레이크: 구조화/비구조화 데이터를 원형 그대로 저장하는 대용량 스토리지
- ETL (Extract, Transform, Load): 외부 데이터 → 처리 → DWH로 적재
- ELT (Extract, Load, Transform): 먼저 적재 → 후처리
🔍 주요 차이
항목 데이터 웨어하우스 데이터 레이크
데이터 형식 | 구조화 | 비구조화 포함 |
목적 | 분석용 | 보존, 유연한 활용 |
비용 | 상대적으로 높음 | 경제적 |
🚉 2장. 데이터 웨어하우스 옵션 비교
✅ 주요 서비스
플랫폼 특징
AWS Redshift | 고정/가변 비용 모델 지원, Postgres 호환 |
Snowflake | 가변 비용, 데이터 마켓/공유 기능 |
Google BigQuery | Nested/Repeated 필드 지원, 실시간 분석 |
Apache Hive | Hadoop 기반 SQL 엔진 |
Apache Presto | 메모리 기반, 다양한 데이터 소스와 SQL 실행 |
Apache Iceberg | 테이블 포맷 (SCD, ACID, 버전관리) |
Apache Spark | 종합 빅데이터 처리 프레임워크 (SQL, ML, Streaming 등) |
📝 Tip: 대부분 SQL 기반이며, 다양한 포맷 (CSV, JSON, Parquet 등) 지원
🔗 4장. 데이터 파이프라인이란?
📘 정의
- 데이터 흐름 관리: 소스 → 변환 → 목적지
- 예: API → 가공 → DWH 저장
📊 파이프라인 유형
- Raw ETL: 외부 데이터 적재 (API, 로그 등)
- ELT (요약): DWH 내부 처리 (ex. dbt)
- Production용 ETL: 결과를 캐시/운영 DB로 이동
🧠 5장. 파이프라인 설계시 고려사항
✅ Best Practices
- Full Refresh 우선
- 멱등성 보장 (Idempotency, 중복 방지)
- Backfill 편의성 (과거 재처리)
- 입출력 명시 & 문서화
- 불필요한 데이터 정리
- 사고 후 리포트(Post-mortem)
- Validation (입출력 수, PK 중복 검사 등)
📊 2장. Superset 소개와 대시보드 생성
🧩 Superset이란?
- 오픈소스 기반의 BI 대시보드 도구
- SQL 기반 시각화 지원
- 경량 웹 UI와 강력한 사용자 권한 관리 기능
'데이터분석데브코스 8 > 이론' 카테고리의 다른 글
7주차 3. 다양한 지표 소개 (0) | 2025.05.21 |
---|---|
7주차 Snowflake (0) | 2025.05.21 |
선형 회귀 및 데이터 모델링 정리 (0) | 2025.05.07 |
데이터 시각화 입문 정리 (0) | 2025.05.07 |
2강 통계적 분석 전체 정보 설명 (0) | 2025.05.02 |