본문 바로가기

회귀분석6

Classification 모델, Regression 모델 🧠 지도학습(Supervised Learning)의 한 종류Classification(분류) 모델은 주어진 데이터를 여러 클래스(범주) 중 하나로 분류하는 작업입니다. 예를 들어, 이메일을 스팸이냐 일반메일이냐로 나누거나, 사진 속 동물이 고양이인지 강아지인지 구분하는 것 등이 있습니다.분류 모델의 종류✅ 이진 분류 (Binary Classification)클래스가 2개인 경우예: 이메일 스팸 여부, 암 진단 (양성/음성)🔢 다중 클래스 분류 (Multiclass Classification)클래스가 3개 이상인 경우예: 숫자 손글씨 인식 (0~9)🏷 다중 레이블 분류 (Multilabel Classification)하나의 데이터가 여러 클래스에 속할 수 있음예: 뉴스 기사 → 정치, 경제, 사회 등.. 2025. 5. 29.
8 - 24. 성능 평가 metric 🎯 개요머신러닝 모델의 성능을 정량적으로 측정하고 비교하기 위한 기준.이를 **metric (지표)이라 하며, 문제 유형과 목적에 따라 선택해야 함.💡 적절한 metric 선택은 모델 평가의 핵심!💡 비지도학습은 적절한 metric이 없을 수도 있음 (시각화 활용도 중요)✅ 1. 지도학습의 Metric🔹 분류 문제(Classification)지표 설명 수식Accuracy전체 예측 중 정답 비율(TP + TN) / (TP + FP + FN + TN)PrecisionPositive 예측 중 실제 Positive 비율TP / (TP + FP)Recall실제 Positive 중 맞춘 비율TP / (TP + FN)F1 ScorePrecision과 Recall의 조화 평균2 * (P * R) / (P + R.. 2025. 5. 29.
8 - 13. Decision Tree ✅ [1부] Decision Tree 용어 및 구조 이해1. 트리 기반 분류 모델이란?입력 데이터를 조건에 따라 분기하면서 최종 예측값 또는 클래스를 결정하는 모델질문을 연속적으로 던지는 방식으로 작동2. 핵심 용어 정리용어 설명노드(Node)특정 질문 또는 조건 (예: "나이 > 30?")엣지(Edge)노드와 노드를 연결하며, 질문에 대한 답변 경로루트노드트리의 시작점. 첫 조건분할노드(결정노드)데이터를 나누는 중간 노드리프노드(말단노드)더 이상 분기가 없는 최종 노드 (예측값 출력)✅ [2부] 분류 문제에서의 Decision Tree 구성1. 트리의 분할 기준 (Decision Criteria)각 노드에서 어떤 기준으로 데이터를 나눌 것인가가 핵심좋은 분할은 과적합을 줄이고 일반화 성능을 높임2. 대.. 2025. 5. 28.
8 - 12. SVM(Support Vector Machine) ✅ [1부] 선형 SVM 개념과 원리1. 왜 SVM인가?두 클래스(예: 원과 삼각형)를 분리하는 "결정 경계"를 찾는 문제.단순히 나누는 것뿐 아니라 일반화 성능이 좋은 경계를 원함.→ **마진(Margin)**이 넓을수록 일반화 성능 ↑2. 마진과 서포트 벡터(Support Vector)마진: 결정 경계와 가장 가까운 데이터 포인트 사이의 거리서포트 벡터: 이 마진을 형성하는 가장자리의 샘플들SVM은 이 마진을 최대화하는 직선(혹은 초평면)을 찾음→ 이를 최대 마진 초평면이라 부름수식:결정 경계: wᵀx + b = 0서포트 벡터 경계: wᵀx + b = ±1마진 크기: 2 / ||w||3. 최적화 문제 (하드 마진 SVM)목적:마진을 최대화 .0를 최소화)모든 데이터가 마진 안쪽에 있게 함:yᵢ(wᵀx.. 2025. 5. 28.
8주차 8. 지도학습의 개념과 대표 알고리즘 🔍 1. 지도학습(Supervised Learning)이란?정답(레이블)이 주어진 데이터를 바탕으로 모델이 학습하는 방식입력값(X) → 출력값(y)의 관계를 학습예측 정확도를 명확한 수치로 평가할 수 있음✅ 장점정답이 명확하여 학습과 평가가 용이성능 검증이 명확 (정확도, 손실 등)❗ 단점정답(레이블)을 만들기 위한 데이터 라벨링 비용 발생레이블링 작업에는 전문가 참여가 필요할 수 있음🧭 2. 지도학습 문제 유형📘 회귀 문제 (Regression)숫자 예측 문제출력값이 연속적인 실수 (예: 가격, 온도, 키, 몸무게 등)예시: “내일 주식 가격은 얼마일까?”, “5년 후 몸무게는?”📕 분류 문제 (Classification)카테고리 분류 문제출력값이 불연속적 클래스 (범주형)예시: “이메일이 스팸.. 2025. 5. 21.
머신러닝 회귀 지표 정리 + 실습 코드 (MAE, RMSE) 📉 회귀(Regression) 문제RMSE (Root Mean Square Error)MAE (Mean Absolute Error)📉 회귀(Regression) 모델 평가 지표 정리회귀 문제란?→ 예측 대상이 연속형 숫자일 때 사용예) 집값, 매출액, 기온, 사용자 체류 시간 등✅ 주요 지표 2가지지표 정의 수식 특징MAE(Mean Absolute Error)실제값과 예측값의 절대 오차 평균`MAE = (1/n) ∑y - ŷRMSE(Root Mean Square Error)실제값과 예측값의 제곱 오차 평균의 제곱근RMSE = √((1/n) ∑ (y - ŷ)²)오차가 클수록 더 크게 반영 (이상치에 민감)🎯 예시 코드 & 결과from sklearn.metrics import mean_absolute_.. 2025. 5. 14.