데이터분석데브코스 8/이론
데이터 분석
DataJ
2025. 4. 30. 18:29
📊 데이터 분석 1강 요약 – 문제 정의부터 정규화까지
데이터 분석의 첫걸음을 배운 1강에서는
‘왜 데이터 분석이 필요한지’, ‘분석 프로세스’,
Google Colab 사용법, 정규화 개념까지 소개되었어요.
✅ 데이터 분석을 해야 하는 이유
- 2000년 → 2020년, 나스닥 시가총액 상위 기업은
제조업 중심 → 서비스 중심으로 이동 - 아마존, 넷플릭스, 구글 등은 데이터를 활용해 수익을 창출
- 예측 배송, 콘텐츠 추천, 광고 타게팅 등
📌 데이터 분석은 더 이상 선택이 아닌 비즈니스 생존 전략
🔍 데이터 분석이란?
- 데이터를 정리·변환·조작·검사해서
**인사이트(통찰)**를 얻는 작업 - 직관이 아닌 데이터 기반 의사결정을 가능하게 함
예: 마케팅 전략 수립, 수요 예측, A/B 테스트 등
🪜 데이터 분석 5단계 프로세스
1. 문제 정의
- 문제를 작은 단위로 쪼개고 가설 수립
- 예: 인구 감소 → 노동 인구 부족 → 내수시장 위축
2. 데이터 수집
- 필요한 지표 정의
- 가설 검증에 적절한 데이터인가?
3. 데이터 전처리
- SQL로 추출/필터링/조인
- Python으로 이상치 제거, 정규화 등 처리
4. 데이터 분석
- 통계 분석, 시각화, 변수 간 관계 파악
- 머신러닝 모델 적용 (분류/회귀/군집)
5. 리포트 및 피드백
- 상대가 이해할 수 있는 언어로 설명
- 적절한 시각화 활용 (막대, 박스플롯, 선 그래프 등)
💻 Google Colab이란?
- 구글이 제공하는 웹 기반 Jupyter 노트북
- Python 실습에 적합, 설치 없이 사용 가능
- 구글 계정만 있으면 무료
🔗 https://colab.research.google.com
⚖️ 정규화(Normalization) & 스케일링
왜 필요할까?
- 나이: 20~60
- 연봉: 3천만~3억
- 라면 소비: 12~100
→ 값의 범위가 다르면 모델이 편향될 수 있음
종류별 비교
방식설명장점단점
Min-Max | 0~1 사이로 조정 | 간단함 | 이상치에 취약 |
Z-score | 평균 0, 표준편차 1 | 이상치 대응 | 직관적 해석 어려움 |
Log | 로그 변환 | 지수 분포에 효과적 | 0 이하 값 사용 불가 |
⚖️ 정규화(Normalization) & 표준화(Standardization) 종류 완전 정리
데이터 분석에서 정규화와 스케일링은 머신러닝 전처리의 핵심입니다.
각 방법의 정의, 수식, 예시, 특징을 정리해보았습니다.
✅ 정규화 vs 표준화 차이
구분 | 정규화 (Normalization) | 표준화 (Standardization) |
---|---|---|
목표 | 0~1 범위로 조정 | 평균 0, 표준편차 1 |
대표 방법 | Min-Max | Z-score |
민감도 | 이상치에 민감 | 이상치에 강함 |
사용처 | 이미지 처리, 딥러닝 입력 | 회귀, SVM, Neural Net 등 |
📌 1. Min-Max 정규화
정의: 모든 값을 0~1 사이로 변환
공식: (x - min) / (max - min)
예시:
키 데이터 [150, 160, 170, 180]에서 170은
→ (170 - 150) / (180 - 150) = 0.666
특징:
- 간단하고 직관적
- 이상치가 있으면 스케일이 깨짐
📌 2. Z-score 정규화 (표준화)
정의: 평균 0, 표준편차 1로 조정
공식: (x - 평균) / 표준편차
예시:
점수 [50, 60, 70, 80, 90]에서 80점
→ (80 - 70) / 15 = 0.67
특징:
- 이상치에 강하고 대부분 모델에 적합
- 정규분포 기반 알고리즘에 추천됨
📌 3. 로그 스케일링 (Log Scaling)
정의: 지수 분포일 때 log로 조정
공식: log(x + 1)
예시:
[10만, 30만, 100만, 1000만] → [5, 5.48, 6, 7]
특징:
- 지수 분포나 클릭수, 수입처럼 치우친 데이터에 유리
- 0 이하 값엔 사용 불가
📌 4. 기타 스케일링 방법
방법 | 설명 | 사용 예시 |
---|---|---|
RobustScaler | 중앙값과 IQR 기준 | 이상치가 많은 경우 |
MaxAbsScaler | -1 ~ 1 범위로 조정 | 희소행렬 (음수 포함 가능) |
QuantileTransformer | 정규분포 또는 균등분포로 강제 | 정규성 확보가 필요한 경우 |
🎯 상황별 추천 정규화 방식
상황 | 추천 방법 |
---|---|
값의 범위만 조정하고 싶을 때 | Min-Max |
거리 기반 모델 사용 시 | Z-score |
이상치가 많을 때 | RobustScaler |
분포가 지수적일 때 | Log Scaling |
0~1 또는 -1~1 범위일 때 | MaxAbsScaler |
🎯 마무리
- 데이터 분석은 문제 해결 도구
- 분석 기술보다 중요한 건 문제 정의 능력
- 정규화는 전처리에서 매우 중요
- Google Colab으로 실습 부담 줄이기 가능
📘 참고자료:
본 내용은 Grepp Inc. 제공 데이터 분석 강의(황도영 강사)의 1강 내용을 기반으로 개인 학습 목적으로 정리하였습니다.