머신러닝 #8 - 회귀모델의 성능지표

📚 회귀모델의 성능지표 회귀(regression)는 연속적인 수치 예측 문제이기 때문에, 분류 문제에서 쓰는 정확도(accuracy) 같은 지표는 쓸 수 없고, 예측값과 실제값의 차이를 측정하는 방식이 필요하다. 이 차이를 어떻게 재느냐에 따라 다양한 성능지표가 생긴다. 🔧 1. 왜 알아야 하는가? 회귀 성능지표는 모델이 얼마나 잘 예측하는지...

Aug 4, 2025 머신러닝

머신러닝 #7 - 분류모델의 성능지표

📚 분류모델의 성능지표 🔧 1. 왜 알아야 하는가? 분류 모델은 이메일 스팸 탐지, 질병 진단, 이미지 분류 등 일상적이고 중요한 문제에 사용됩니다. 모델이 얼마나 잘 작동하는지를 평가하지 않으면, 실제 환경에서 심각한 오류(예: 암인데 정상이라고 판단)로 이어질 수 있습니다. 성능지표는 단순한 ‘정답률’ 이상으로, 무엇이 잘 되고 무엇이 잘못...

Aug 4, 2025 머신러닝

머신러닝 #5 - 앙상블 학습

🤝 앙상블 학습 (Ensemble Learning) 🚀 경험: 예측 투표 게임 키 180cm인 사람이 농구를 잘할까? A: 키가 크면 잘할 것 같아 B: 운동부 출신인지가 중요해 C: 점프력과 손 크기도 봐야지 세 의견을 모으면 혼자 판단하는 것보다 정확한 예측 가능! → 이것이 앙상블 학습의 핵심 아이디어. 🔍 ...

Jul 31, 2025 머신러닝, 학습 전략

머신러닝 #3 - 분류와 회귀

📚 분류와 회귀 (Classifier & Regressor) 머신러닝에서 가장 기본이자 널리 쓰이는 두 가지 모델이 있다: 분류(classification)와 회귀(regression). 이 문서에서는 두 개념을 예시 중심으로 쉽게 이해하고, 핵심 원리를 정리한다. Classifier란 무엇인가? 데이터를 받아 미리 정해진 카테...

Jul 31, 2025 머신러닝, 학습 목적

머신러닝 #6 - 랜덤포레스트

🌳 랜덤 포레스트 (Random Forest) 랜덤 포레스트는 여러 개의 결정나무를 조합해 예측 정확도와 안정성을 높이는 앙상블 학습 기법이다. 회귀와 분류 모두에 사용되며, 과적합에 강한 특성을 가진다. 이 모델은 배깅(Bagging)이라는 전략을 기반으로 작동한다. 📦 배깅(Bagging)이란? 서로 다른 데이터 샘플로 여러 모델을 학...

Jul 31, 2025 머신러닝, 학습 전략, 모델 구조

통계 - 나이브 베이즈

📚 나이브 베이즈(Naive Bayes) 문제: 스팸메일 분류기 만들기 이메일 필터를 만들고 있다. 아래는 나의 훈련 데이터다: 이메일 단어들 스팸 여부 1 “cheap”, “viagra”, “offer” 스팸 ...

Jul 30, 2025 통계

머신러닝 #4 - 의사결정트리

📚 의사결정트리 (Decision Tree) 우선 설명하기 전에 코드와 실행결과를 봐보자. 아래는 코드와 코드 실행결과다. import pandas as pd from sklearn.preprocessing import LabelEncoder # 데이터 불러오기 data = pd.DataFrame({ '날씨': ['맑음', '맑음', ...

Jul 30, 2025 머신러닝, 모델 구조

머신러닝 #2 - LOOCV, LOPCV

📚 두 교차검증 방식 LOOCV & LOPCV 🧬 LOOCV (Leave-One-Out Cross Validation) 말 그대로 하나 빼고 다 학습하는 방식이야. 데이터셋이 N개라면, N개의 fold를 만드는 것과 같아. 매번 하나의 샘플만 검증용으로 빼고, 나머지 N-1개로 학습. 이 과정을 N번 반복하고, N개의 결과...

Jul 30, 2025 머신러닝, 교차검증

머신러닝 #1 - K-Fold 교차 검증

📚 K-Fold 교차 검증(K-Fold Cross Validation) K-Fold는 모델의 일반화 성능을 평가하기 위한 검증 기법입니다. 데이터를 K등분한 뒤, 각 부분을 한 번씩 검증용으로 사용해 총 K번 모델을 학습/평가합니다. 💡 어떻게 작동하나요? 전체 데이터를 K개의 폴드(fold) 로 나눕니다. K번 반복하며: ...