1. 라이브러리 임포트
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, roc_auc_score
2. 독립변수, 종속변수 분리
df = pd.read_csv('LogisticRegressionData.csv')
X = df.iloc[:,:-1].values
y = df.iloc[:,-1].values
X = 시험 성적
y = 시험 성적에 따른 불합 여부
3. 훈련셋과 테스트셋 분리
X_train, X_test , y_train, y_test = train_test_split(X,y, test_size = 0.2, random_state = 42)
4. 수치 특성을 표준화하여 비슷한 규모로
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
5. 로지스틱 회귀 객체를 생성해 주고 학습
model = LogisticRegression(random_state=42)
model.fit(X_train_scaled, y_train)
6. 실제 값과 예측 값 출력
y_pred = model.predict(X_test_scaled)
print(y_test, y_pred)
7. 모델 평가
Precision(정밀도) :
모델이 1이라고 예측한 것 중에 실제로 1인 것
recall(재현율) :
실제로 1인 것 중에 모델이 1로 예측한 것
f1-score :
정밀도와 재현율의 조화평균
Confusion Matrix : 혼동 행렬
TP : 실제 값 = 합격 , 예측 값 = 합격 -> 올바른 예측
FP : 실제 값 = 불합격, 예측 값 = 합격
FN : 실제 값 = 합격, 예측 값 = 불합격
TN : 실제 값 = 불합격, 예측 값 = 불합격 -> 올바른 예측
'데이터 분석 > MLDL' 카테고리의 다른 글
배깅과 부스팅 (0) | 2024.02.20 |
---|---|
Feature Selection에 대해 (0) | 2024.02.13 |
[머신러닝 기초] 분류 모델 평가 지표 등등 (1) | 2024.02.08 |
선형회귀 연습 (0) | 2024.01.30 |
선형 회귀 기초 - 공부 시간에 따른 시험 점수 (0) | 2024.01.26 |