8주차 8. 지도학습의 개념과 대표 알고리즘

🔍 1. 지도학습(Supervised Learning)이란?

정답(레이블)이 주어진 데이터를 바탕으로 모델이 학습하는 방식

입력값(X) → 출력값(y)의 관계를 학습
예측 정확도를 명확한 수치로 평가할 수 있음

✅ 장점

정답이 명확하여 학습과 평가가 용이
성능 검증이 명확 (정확도, 손실 등)

❗ 단점

정답(레이블)을 만들기 위한 데이터 라벨링 비용 발생
레이블링 작업에는 전문가 참여가 필요할 수 있음

🧭 2. 지도학습 문제 유형

📘 회귀 문제 (Regression)

숫자 예측 문제
출력값이 연속적인 실수 (예: 가격, 온도, 키, 몸무게 등)

예시: “내일 주식 가격은 얼마일까?”, “5년 후 몸무게는?”

📕 분류 문제 (Classification)

카테고리 분류 문제
출력값이 불연속적 클래스 (범주형)

예시: “이메일이 스팸인가?”, “고양이냐 개인가?”, “리뷰가 긍정인가 부정인가?”

⚖ 분류 vs 회귀 비교

구분 회귀 분류

출력값	실수	클래스 (범주)
예시	주식 가격 예측	날씨 예보 (맑음/비/눈)
평가 지표	MSE, MAE 등	Accuracy, F1-score 등

📂 3. 데이터 분할 전략 (Train/Validation/Test)

용어 비유 목적

학습 데이터 (Train)	이론지	모델 학습용 데이터 (약 80%)
검증 데이터 (Validation)	모의고사	하이퍼파라미터 조정, 과적합 방지용 (약 10%)
테스트 데이터 (Test)	시험지	최종 성능 측정용 데이터 (약 10%)

📌 테스트 데이터는 모델 학습 과정에서 절대 노출되어서는 안 됩니다.

🚨 4. 과적합(Overfitting)

학습 데이터에 너무 집착하여 새로운 데이터에 일반화되지 못하는 현상

데이터를 외워버리는 경우
일반화 성능이 낮아짐

🔧 해결 방법

데이터 양 늘리기
모델 단순화
정규화 (L1/L2), Dropout, 교차 검증

📉 5. 손실 함수 (Loss Function)

모델의 예측값과 실제 정답의 차이(오차)를 수치화한 지표

손실이 작을수록 모델 성능이 좋음
머신러닝 학습 = 손실 최소화 과정

📊 주요 손실 함수

문제 유형 손실 함수

회귀	평균제곱오차(MSE), MAE
분류	교차 엔트로피(Cross Entropy), 로그 손실(Log Loss)

⚙ 6. 파라미터와 최적화

파라미터(Parameter): 모델 내부의 가중치(W), 절편(b) 등
최적화(Optimization): 손실을 최소화하는 파라미터를 찾는 과정
- 대표 알고리즘: 경사하강법(Gradient Descent)

🧠 좋은 모델은 좋은 파라미터 조합을 갖고 있으며, 이를 학습을 통해 찾음

📌 7. 대표 알고리즘 정리

🟥 분류(Classification)

알고리즘 특징

로지스틱 회귀	이진 분류 / 확률 기반 예측
결정트리	직관적 분기 기반 분류
랜덤 포레스트	다수의 트리로 예측 안정화 (앙상블)
SVM(Support Vector Machine)	최적 경계면 탐색 / 커널 기법 사용 가능

🟦 회귀(Regression)

알고리즘 특징

선형 회귀	기본적 / 선형 관계 가정
릿지/라쏘 회귀	정규화 기법 포함 / 과적합 방지
결정트리 회귀	규칙 기반 / 복잡한 관계 학습
SVR	서포트 벡터 머신의 회귀 버전
KNN 회귀	주변 이웃 평균값으로 예측 / 비모수적 방법

'데이터분석데브코스 8 > 이론' 카테고리의 다른 글

8 - 10. 선형 회귀 실습 정리, SGD kaggle (0)	2025.05.28
8주차 9. 선형 회귀와 선형 분류 (1)	2025.05.22
8주차 7. 머신러닝에 필요한 주요 Python 패키지 소개 (1)	2025.05.21
8주차 6. 머신러닝에 필요한 확률 이론 (0)	2025.05.21
8주차 5. 머신러닝에 필요한 선형대수 (0)	2025.05.21

Diary

8주차 8. 지도학습의 개념과 대표 알고리즘

🔍 1. 지도학습(Supervised Learning)이란?

✅ 장점

❗ 단점

🧭 2. 지도학습 문제 유형

📘 회귀 문제 (Regression)

📕 분류 문제 (Classification)

⚖ 분류 vs 회귀 비교

📂 3. 데이터 분할 전략 (Train/Validation/Test)

🚨 4. 과적합(Overfitting)

🔧 해결 방법

📉 5. 손실 함수 (Loss Function)

📊 주요 손실 함수

⚙ 6. 파라미터와 최적화

📌 7. 대표 알고리즘 정리

🟥 분류(Classification)

🟦 회귀(Regression)

'데이터분석데브코스 8 > 이론' 카테고리의 다른 글

티스토리툴바

8주차 8. 지도학습의 개념과 대표 알고리즘

🔍 1. 지도학습(Supervised Learning)이란?

✅ 장점

❗ 단점

🧭 2. 지도학습 문제 유형

📘 회귀 문제 (Regression)

📕 분류 문제 (Classification)

⚖ 분류 vs 회귀 비교

📂 3. 데이터 분할 전략 (Train/Validation/Test)

🚨 4. 과적합(Overfitting)

🔧 해결 방법

📉 5. 손실 함수 (Loss Function)

📊 주요 손실 함수

⚙ 6. 파라미터와 최적화

📌 7. 대표 알고리즘 정리

🟥 분류(Classification)

🟦 회귀(Regression)

'데이터분석데브코스 8 > 이론' 카테고리의 다른 글

관련글

티스토리툴바