본문 바로가기
데이터분석데브코스 8/이론

8주차 8. 지도학습의 개념과 대표 알고리즘

by DataJ 2025. 5. 21.

🔍 1. 지도학습(Supervised Learning)이란?

정답(레이블)이 주어진 데이터를 바탕으로 모델이 학습하는 방식

  • 입력값(X) → 출력값(y)의 관계를 학습
  • 예측 정확도를 명확한 수치로 평가할 수 있음

✅ 장점

  • 정답이 명확하여 학습과 평가가 용이
  • 성능 검증이 명확 (정확도, 손실 등)

❗ 단점

  • 정답(레이블)을 만들기 위한 데이터 라벨링 비용 발생
  • 레이블링 작업에는 전문가 참여가 필요할 수 있음

🧭 2. 지도학습 문제 유형

📘 회귀 문제 (Regression)

  • 숫자 예측 문제
  • 출력값이 연속적인 실수 (예: 가격, 온도, 키, 몸무게 등)

예시: “내일 주식 가격은 얼마일까?”, “5년 후 몸무게는?”

📕 분류 문제 (Classification)

  • 카테고리 분류 문제
  • 출력값이 불연속적 클래스 (범주형)

예시: “이메일이 스팸인가?”, “고양이냐 개인가?”, “리뷰가 긍정인가 부정인가?”

⚖ 분류 vs 회귀 비교

구분 회귀 분류

출력값 실수 클래스 (범주)
예시 주식 가격 예측 날씨 예보 (맑음/비/눈)
평가 지표 MSE, MAE 등 Accuracy, F1-score 등

📂 3. 데이터 분할 전략 (Train/Validation/Test)

용어 비유 목적

학습 데이터 (Train) 이론지 모델 학습용 데이터 (약 80%)
검증 데이터 (Validation) 모의고사 하이퍼파라미터 조정, 과적합 방지용 (약 10%)
테스트 데이터 (Test) 시험지 최종 성능 측정용 데이터 (약 10%)

📌 테스트 데이터는 모델 학습 과정에서 절대 노출되어서는 안 됩니다.


🚨 4. 과적합(Overfitting)

학습 데이터에 너무 집착하여 새로운 데이터에 일반화되지 못하는 현상

  • 데이터를 외워버리는 경우
  • 일반화 성능이 낮아짐

🔧 해결 방법

  • 데이터 양 늘리기
  • 모델 단순화
  • 정규화 (L1/L2), Dropout, 교차 검증

📉 5. 손실 함수 (Loss Function)

모델의 예측값과 실제 정답의 차이(오차)를 수치화한 지표

  • 손실이 작을수록 모델 성능이 좋음
  • 머신러닝 학습 = 손실 최소화 과정

📊 주요 손실 함수

문제 유형 손실 함수

회귀 평균제곱오차(MSE), MAE
분류 교차 엔트로피(Cross Entropy), 로그 손실(Log Loss)

⚙ 6. 파라미터와 최적화

  • 파라미터(Parameter): 모델 내부의 가중치(W), 절편(b) 등
  • 최적화(Optimization): 손실을 최소화하는 파라미터를 찾는 과정
    • 대표 알고리즘: 경사하강법(Gradient Descent)

🧠 좋은 모델은 좋은 파라미터 조합을 갖고 있으며, 이를 학습을 통해 찾음


📌 7. 대표 알고리즘 정리

🟥 분류(Classification)

알고리즘 특징

로지스틱 회귀 이진 분류 / 확률 기반 예측
결정트리 직관적 분기 기반 분류
랜덤 포레스트 다수의 트리로 예측 안정화 (앙상블)
SVM(Support Vector Machine) 최적 경계면 탐색 / 커널 기법 사용 가능

🟦 회귀(Regression)

알고리즘 특징

선형 회귀 기본적 / 선형 관계 가정
릿지/라쏘 회귀 정규화 기법 포함 / 과적합 방지
결정트리 회귀 규칙 기반 / 복잡한 관계 학습
SVR 서포트 벡터 머신의 회귀 버전
KNN 회귀 주변 이웃 평균값으로 예측 / 비모수적 방법