🔍 1. 지도학습(Supervised Learning)이란?
정답(레이블)이 주어진 데이터를 바탕으로 모델이 학습하는 방식
- 입력값(X) → 출력값(y)의 관계를 학습
- 예측 정확도를 명확한 수치로 평가할 수 있음
✅ 장점
- 정답이 명확하여 학습과 평가가 용이
- 성능 검증이 명확 (정확도, 손실 등)
❗ 단점
- 정답(레이블)을 만들기 위한 데이터 라벨링 비용 발생
- 레이블링 작업에는 전문가 참여가 필요할 수 있음
🧭 2. 지도학습 문제 유형
📘 회귀 문제 (Regression)
- 숫자 예측 문제
- 출력값이 연속적인 실수 (예: 가격, 온도, 키, 몸무게 등)
예시: “내일 주식 가격은 얼마일까?”, “5년 후 몸무게는?”
📕 분류 문제 (Classification)
- 카테고리 분류 문제
- 출력값이 불연속적 클래스 (범주형)
예시: “이메일이 스팸인가?”, “고양이냐 개인가?”, “리뷰가 긍정인가 부정인가?”
⚖ 분류 vs 회귀 비교
구분 회귀 분류
출력값 | 실수 | 클래스 (범주) |
예시 | 주식 가격 예측 | 날씨 예보 (맑음/비/눈) |
평가 지표 | MSE, MAE 등 | Accuracy, F1-score 등 |
📂 3. 데이터 분할 전략 (Train/Validation/Test)
용어 비유 목적
학습 데이터 (Train) | 이론지 | 모델 학습용 데이터 (약 80%) |
검증 데이터 (Validation) | 모의고사 | 하이퍼파라미터 조정, 과적합 방지용 (약 10%) |
테스트 데이터 (Test) | 시험지 | 최종 성능 측정용 데이터 (약 10%) |
📌 테스트 데이터는 모델 학습 과정에서 절대 노출되어서는 안 됩니다.
🚨 4. 과적합(Overfitting)
학습 데이터에 너무 집착하여 새로운 데이터에 일반화되지 못하는 현상
- 데이터를 외워버리는 경우
- 일반화 성능이 낮아짐
🔧 해결 방법
- 데이터 양 늘리기
- 모델 단순화
- 정규화 (L1/L2), Dropout, 교차 검증
📉 5. 손실 함수 (Loss Function)
모델의 예측값과 실제 정답의 차이(오차)를 수치화한 지표
- 손실이 작을수록 모델 성능이 좋음
- 머신러닝 학습 = 손실 최소화 과정
📊 주요 손실 함수
문제 유형 손실 함수
회귀 | 평균제곱오차(MSE), MAE |
분류 | 교차 엔트로피(Cross Entropy), 로그 손실(Log Loss) |
⚙ 6. 파라미터와 최적화
- 파라미터(Parameter): 모델 내부의 가중치(W), 절편(b) 등
- 최적화(Optimization): 손실을 최소화하는 파라미터를 찾는 과정
- 대표 알고리즘: 경사하강법(Gradient Descent)
🧠 좋은 모델은 좋은 파라미터 조합을 갖고 있으며, 이를 학습을 통해 찾음
📌 7. 대표 알고리즘 정리
🟥 분류(Classification)
알고리즘 특징
로지스틱 회귀 | 이진 분류 / 확률 기반 예측 |
결정트리 | 직관적 분기 기반 분류 |
랜덤 포레스트 | 다수의 트리로 예측 안정화 (앙상블) |
SVM(Support Vector Machine) | 최적 경계면 탐색 / 커널 기법 사용 가능 |
🟦 회귀(Regression)
알고리즘 특징
선형 회귀 | 기본적 / 선형 관계 가정 |
릿지/라쏘 회귀 | 정규화 기법 포함 / 과적합 방지 |
결정트리 회귀 | 규칙 기반 / 복잡한 관계 학습 |
SVR | 서포트 벡터 머신의 회귀 버전 |
KNN 회귀 | 주변 이웃 평균값으로 예측 / 비모수적 방법 |
'데이터분석데브코스 8 > 이론' 카테고리의 다른 글
8 - 10. 선형 회귀 실습 정리, SGD kaggle (0) | 2025.05.28 |
---|---|
8주차 9. 선형 회귀와 선형 분류 (1) | 2025.05.22 |
8주차 7. 머신러닝에 필요한 주요 Python 패키지 소개 (1) | 2025.05.21 |
8주차 6. 머신러닝에 필요한 확률 이론 (0) | 2025.05.21 |
8주차 5. 머신러닝에 필요한 선형대수 (0) | 2025.05.21 |