본문 바로가기
데이터분석데브코스 8/이론

7주차 1. 데이터 웨어하우스 소개, 2. Superset

by DataJ 2025. 5. 21.

🏗️ 1장. 데이터 웨어하우스와 ETL 개요

📌 핵심 개념

  • 데이터 웨어하우스 (DWH): 구조화된 데이터를 저장하고 분석하기 위한 저장소
  • 데이터 레이크: 구조화/비구조화 데이터를 원형 그대로 저장하는 대용량 스토리지
  • ETL (Extract, Transform, Load): 외부 데이터 → 처리 → DWH로 적재
  • ELT (Extract, Load, Transform): 먼저 적재 → 후처리

🔍 주요 차이

항목 데이터 웨어하우스 데이터 레이크

데이터 형식 구조화 비구조화 포함
목적 분석용 보존, 유연한 활용
비용 상대적으로 높음 경제적

🚉 2장. 데이터 웨어하우스 옵션 비교

✅ 주요 서비스

플랫폼 특징

AWS Redshift 고정/가변 비용 모델 지원, Postgres 호환
Snowflake 가변 비용, 데이터 마켓/공유 기능
Google BigQuery Nested/Repeated 필드 지원, 실시간 분석
Apache Hive Hadoop 기반 SQL 엔진
Apache Presto 메모리 기반, 다양한 데이터 소스와 SQL 실행
Apache Iceberg 테이블 포맷 (SCD, ACID, 버전관리)
Apache Spark 종합 빅데이터 처리 프레임워크 (SQL, ML, Streaming 등)

📝 Tip: 대부분 SQL 기반이며, 다양한 포맷 (CSV, JSON, Parquet 등) 지원

🔗 4장. 데이터 파이프라인이란?

📘 정의

  • 데이터 흐름 관리: 소스 → 변환 → 목적지
  • 예: API → 가공 → DWH 저장

📊 파이프라인 유형

  1. Raw ETL: 외부 데이터 적재 (API, 로그 등)
  2. ELT (요약): DWH 내부 처리 (ex. dbt)
  3. Production용 ETL: 결과를 캐시/운영 DB로 이동

🧠 5장. 파이프라인 설계시 고려사항

✅ Best Practices

  1. Full Refresh 우선
  2. 멱등성 보장 (Idempotency, 중복 방지)
  3. Backfill 편의성 (과거 재처리)
  4. 입출력 명시 & 문서화
  5. 불필요한 데이터 정리
  6. 사고 후 리포트(Post-mortem)
  7. Validation (입출력 수, PK 중복 검사 등)

📊 2장. Superset 소개와 대시보드 생성

🧩 Superset이란?

  • 오픈소스 기반의 BI 대시보드 도구
  • SQL 기반 시각화 지원
  • 경량 웹 UI와 강력한 사용자 권한 관리 기능