데이터분석데브코스 8/이론

데이터 분석

DataJ 2025. 4. 30. 18:29

📊 데이터 분석 1강 요약 – 문제 정의부터 정규화까지

데이터 분석의 첫걸음을 배운 1강에서는
‘왜 데이터 분석이 필요한지’, ‘분석 프로세스’,
Google Colab 사용법, 정규화 개념까지 소개되었어요.

✅ 데이터 분석을 해야 하는 이유

2000년 → 2020년, 나스닥 시가총액 상위 기업은
제조업 중심 → 서비스 중심으로 이동
아마존, 넷플릭스, 구글 등은 데이터를 활용해 수익을 창출
- 예측 배송, 콘텐츠 추천, 광고 타게팅 등

📌 데이터 분석은 더 이상 선택이 아닌 비즈니스 생존 전략

🔍 데이터 분석이란?

데이터를 정리·변환·조작·검사해서
**인사이트(통찰)**를 얻는 작업
직관이 아닌 데이터 기반 의사결정을 가능하게 함

예: 마케팅 전략 수립, 수요 예측, A/B 테스트 등

🪜 데이터 분석 5단계 프로세스

1. 문제 정의

문제를 작은 단위로 쪼개고 가설 수립
예: 인구 감소 → 노동 인구 부족 → 내수시장 위축

2. 데이터 수집

필요한 지표 정의
가설 검증에 적절한 데이터인가?

3. 데이터 전처리

SQL로 추출/필터링/조인
Python으로 이상치 제거, 정규화 등 처리

4. 데이터 분석

통계 분석, 시각화, 변수 간 관계 파악
머신러닝 모델 적용 (분류/회귀/군집)

5. 리포트 및 피드백

상대가 이해할 수 있는 언어로 설명
적절한 시각화 활용 (막대, 박스플롯, 선 그래프 등)

💻 Google Colab이란?

구글이 제공하는 웹 기반 Jupyter 노트북
Python 실습에 적합, 설치 없이 사용 가능
구글 계정만 있으면 무료
🔗 https://colab.research.google.com

⚖️ 정규화(Normalization) & 스케일링

왜 필요할까?

나이: 20~60
연봉: 3천만~3억
라면 소비: 12~100

→ 값의 범위가 다르면 모델이 편향될 수 있음

종류별 비교

방식설명장점단점

Min-Max	0~1 사이로 조정	간단함	이상치에 취약
Z-score	평균 0, 표준편차 1	이상치 대응	직관적 해석 어려움
Log	로그 변환	지수 분포에 효과적	0 이하 값 사용 불가

⚖️ 정규화(Normalization) & 표준화(Standardization) 종류 완전 정리

데이터 분석에서 정규화와 스케일링은 머신러닝 전처리의 핵심입니다.
각 방법의 정의, 수식, 예시, 특징을 정리해보았습니다.

✅ 정규화 vs 표준화 차이

구분	정규화 (Normalization)	표준화 (Standardization)
목표	0~1 범위로 조정	평균 0, 표준편차 1
대표 방법	Min-Max	Z-score
민감도	이상치에 민감	이상치에 강함
사용처	이미지 처리, 딥러닝 입력	회귀, SVM, Neural Net 등

📌 1. Min-Max 정규화

정의: 모든 값을 0~1 사이로 변환

공식: (x - min) / (max - min)

예시:
키 데이터 [150, 160, 170, 180]에서 170은
→ (170 - 150) / (180 - 150) = 0.666

특징:

간단하고 직관적
이상치가 있으면 스케일이 깨짐

📌 2. Z-score 정규화 (표준화)

정의: 평균 0, 표준편차 1로 조정

공식: (x - 평균) / 표준편차

예시:
점수 [50, 60, 70, 80, 90]에서 80점
→ (80 - 70) / 15 = 0.67

특징:

이상치에 강하고 대부분 모델에 적합
정규분포 기반 알고리즘에 추천됨

📌 3. 로그 스케일링 (Log Scaling)

정의: 지수 분포일 때 log로 조정

공식: log(x + 1)

예시:
[10만, 30만, 100만, 1000만] → [5, 5.48, 6, 7]

특징:

지수 분포나 클릭수, 수입처럼 치우친 데이터에 유리
0 이하 값엔 사용 불가

📌 4. 기타 스케일링 방법

방법	설명	사용 예시
RobustScaler	중앙값과 IQR 기준	이상치가 많은 경우
MaxAbsScaler	-1 ~ 1 범위로 조정	희소행렬 (음수 포함 가능)
QuantileTransformer	정규분포 또는 균등분포로 강제	정규성 확보가 필요한 경우

🎯 상황별 추천 정규화 방식

상황	추천 방법
값의 범위만 조정하고 싶을 때	Min-Max
거리 기반 모델 사용 시	Z-score
이상치가 많을 때	RobustScaler
분포가 지수적일 때	Log Scaling
0~1 또는 -1~1 범위일 때	MaxAbsScaler

🎯 마무리

데이터 분석은 문제 해결 도구
분석 기술보다 중요한 건 문제 정의 능력
정규화는 전처리에서 매우 중요
Google Colab으로 실습 부담 줄이기 가능

📘 참고자료:
본 내용은 Grepp Inc. 제공 데이터 분석 강의(황도영 강사)의 1강 내용을 기반으로 개인 학습 목적으로 정리하였습니다.