머신러닝(MACHINE LEARNING)
-
GridSearchCV () - 파라매터 와 교차검증을 동시에 하는 API머신러닝(MACHINE LEARNING) 2021. 4. 13. 23:08
GridSearchCV 를 알아보자¶ -GridSearchCV 는 교차 검증(여러가지 기법들이 존재한다.) 과 하이퍼 파라미터 튜닝(weight)값을 둘다 할 수 있는 API 이며, 순차적으로 파라미터를 입력시켜, 최적의 파라미터를 도출 할 수 있도록 도와준다. GridSearchCV 는 class sklearn.model_selection.GridSearchCV(estimator, param_grid, , scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2n_jobs', error_score=nan, return_train_score=False) 로 구성이 되있다. GridSearchCV 는 Grid 에 포함된 여러 pa..
-
교차 검증을 위한 Cross_val_score() 함수 사용법머신러닝(MACHINE LEARNING) 2021. 4. 13. 22:23
사이킷 런(Scikit-Learn) 에서 보다 쉬운 교차검증 API - cross_val_score()¶ -사이킷 런에서는 교차검증(K-Fold or StratifiedKFold) 를 더 쉽게 할 수 있는 API를 제공하는 데 그것은 cross_val_score 이다. cross_val_score 에는 여러가지 변수 값들이 있지만 중요한 몇가지만 알아보자. estimator = > 분류 알고리즘(Classifier) 또는 회귀 (Regressor) 인지 구분 인자 X => feature 데이터 세트 Y => 레이블 데이터 세트 scoring => 예측 성능 평가 지표( 'accuracy', 'neg_brier_score' , 'top_k_accuracy'등등 겁나많다...) cv => 교차 검증 폴드 수..
-
K-Fold 와 Stratified-KFold 기법머신러닝(MACHINE LEARNING) 2021. 4. 13. 21:51
sklearn 에서는 K-fold 교차검증을 구현하귀 위해 Kfold 와 stratifiedKfold 클래스를 제공한다. K-fold 교차 검증이란 , K번마다 K개의 학습데이터 셋을 나누어 평가를 진행하는 것이다. Kfold => 가장 보편적인 K-fold 방법 위에서 설명한 바와 같이 학습데이터 셋과 검증 데이터 셋을 나누어 진행. stratifiedKFold => 여기서 불균형한 DataSet 을 위한 KFold 방법이다. 예를 들어 True label 이 10000개 있고, 10 건이 False 라 했을시, K-fold로 나누게 되게 되면, 불균형한 값이 나올 수 있다. 2000 개 모두 True 인 label 이 들어있고, 당연히 학습 효과 역시 없을 것이다. K -Fold 학습데이터 분류¶ I..
-
Train_Test_Split 함수 사용Train_Test_Split 함수 사용머신러닝(MACHINE LEARNING) 2021. 4. 13. 17:34
Model Selection 모듈 소개 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeRegressor from sklearn.metrics import accuracy_score iris = load_iris() dt_clf = DecisionTreeRegressor() train_data = iris.data train_label = iris.target dt_clf.fit(train_data, train_label) print(' 예측 정확도 : {0:.2f}'.format(accuracy_score(train_label,dt_clf.predict(train_data)))) 예측 정확도 : 1.0..
-
pandas_sklearn_DecisionTreeclassifier머신러닝(MACHINE LEARNING) 2021. 4. 13. 17:11
주피터 노트북을 활용한 Decision_Tree_Classifier 이다. 참고하길 바랍니다. In [1]: from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split In [2]: import pandas as pd iris = load_iris() # iris.data 는 Iris 데이터 세트에서 피쳐 만으로 된 numpy를 가지고 있습니다. iris_data = iris.data print(iris_data[:3]) print(iris_data.shape) [[5.1 3.5 1.4 0.2] [4.9 3. 1.4..
-
Kaggle_Titanic머신러닝(MACHINE LEARNING) 2021. 4. 9. 00:44
import pandas as pd import numpy as np import matplotlib.pyplot as plt test_df = pd.read_csv("./test.csv") train_df = pd.read_csv("./train.csv") train_df.head() PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked 0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S 1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.28..