DataJ 2025. 4. 30. 18:29

 

📊 데이터 분석 1강 요약 – 문제 정의부터 정규화까지

데이터 분석의 첫걸음을 배운 1강에서는
‘왜 데이터 분석이 필요한지’, ‘분석 프로세스’,
Google Colab 사용법, 정규화 개념까지 소개되었어요.


✅ 데이터 분석을 해야 하는 이유

  • 2000년 → 2020년, 나스닥 시가총액 상위 기업은
    제조업 중심 → 서비스 중심으로 이동
  • 아마존, 넷플릭스, 구글 등은 데이터를 활용해 수익을 창출
    • 예측 배송, 콘텐츠 추천, 광고 타게팅 등

📌 데이터 분석은 더 이상 선택이 아닌 비즈니스 생존 전략


🔍 데이터 분석이란?

  • 데이터를 정리·변환·조작·검사해서
    **인사이트(통찰)**를 얻는 작업
  • 직관이 아닌 데이터 기반 의사결정을 가능하게 함

예: 마케팅 전략 수립, 수요 예측, A/B 테스트 등


🪜 데이터 분석 5단계 프로세스

1. 문제 정의

  • 문제를 작은 단위로 쪼개고 가설 수립
  • 예: 인구 감소 → 노동 인구 부족 → 내수시장 위축

2. 데이터 수집

  • 필요한 지표 정의
  • 가설 검증에 적절한 데이터인가?

3. 데이터 전처리

  • SQL로 추출/필터링/조인
  • Python으로 이상치 제거, 정규화 등 처리

4. 데이터 분석

  • 통계 분석, 시각화, 변수 간 관계 파악
  • 머신러닝 모델 적용 (분류/회귀/군집)

5. 리포트 및 피드백

  • 상대가 이해할 수 있는 언어로 설명
  • 적절한 시각화 활용 (막대, 박스플롯, 선 그래프 등)

💻 Google Colab이란?

  • 구글이 제공하는 웹 기반 Jupyter 노트북
  • Python 실습에 적합, 설치 없이 사용 가능
  • 구글 계정만 있으면 무료
    🔗 https://colab.research.google.com

⚖️ 정규화(Normalization) & 스케일링

왜 필요할까?

  • 나이: 20~60
  • 연봉: 3천만~3억
  • 라면 소비: 12~100

→ 값의 범위가 다르면 모델이 편향될 수 있음

종류별 비교

방식설명장점단점
Min-Max 0~1 사이로 조정 간단함 이상치에 취약
Z-score 평균 0, 표준편차 1 이상치 대응 직관적 해석 어려움
Log 로그 변환 지수 분포에 효과적 0 이하 값 사용 불가

⚖️ 정규화(Normalization) & 표준화(Standardization) 종류 완전 정리

데이터 분석에서 정규화와 스케일링은 머신러닝 전처리의 핵심입니다.
각 방법의 정의, 수식, 예시, 특징을 정리해보았습니다.


✅ 정규화 vs 표준화 차이

구분 정규화 (Normalization) 표준화 (Standardization)
목표 0~1 범위로 조정 평균 0, 표준편차 1
대표 방법 Min-Max Z-score
민감도 이상치에 민감 이상치에 강함
사용처 이미지 처리, 딥러닝 입력 회귀, SVM, Neural Net 등

📌 1. Min-Max 정규화

정의: 모든 값을 0~1 사이로 변환

공식: (x - min) / (max - min)

예시:
키 데이터 [150, 160, 170, 180]에서 170은
→ (170 - 150) / (180 - 150) = 0.666

특징:

  • 간단하고 직관적
  • 이상치가 있으면 스케일이 깨짐

📌 2. Z-score 정규화 (표준화)

정의: 평균 0, 표준편차 1로 조정

공식: (x - 평균) / 표준편차

예시:
점수 [50, 60, 70, 80, 90]에서 80점
→ (80 - 70) / 15 = 0.67

특징:

  • 이상치에 강하고 대부분 모델에 적합
  • 정규분포 기반 알고리즘에 추천됨

📌 3. 로그 스케일링 (Log Scaling)

정의: 지수 분포일 때 log로 조정

공식: log(x + 1)

예시:
[10만, 30만, 100만, 1000만] → [5, 5.48, 6, 7]

특징:

  • 지수 분포나 클릭수, 수입처럼 치우친 데이터에 유리
  • 0 이하 값엔 사용 불가

📌 4. 기타 스케일링 방법

방법 설명 사용 예시
RobustScaler 중앙값과 IQR 기준 이상치가 많은 경우
MaxAbsScaler -1 ~ 1 범위로 조정 희소행렬 (음수 포함 가능)
QuantileTransformer 정규분포 또는 균등분포로 강제 정규성 확보가 필요한 경우

🎯 상황별 추천 정규화 방식

상황 추천 방법
값의 범위만 조정하고 싶을 때 Min-Max
거리 기반 모델 사용 시 Z-score
이상치가 많을 때 RobustScaler
분포가 지수적일 때 Log Scaling
0~1 또는 -1~1 범위일 때 MaxAbsScaler

🎯 마무리

  • 데이터 분석은 문제 해결 도구
  • 분석 기술보다 중요한 건 문제 정의 능력
  • 정규화는 전처리에서 매우 중요
  • Google Colab으로 실습 부담 줄이기 가능

📘 참고자료:
본 내용은 Grepp Inc. 제공 데이터 분석 강의(황도영 강사)의 1강 내용을 기반으로 개인 학습 목적으로 정리하였습니다.