주피터
-
LightGBM 데이터 분류머신러닝(MACHINE LEARNING) 2021. 4. 14. 17:25
LightGMB 의 장점¶ LightGBM 은 XGB보다 더빠른 학습과 에측 수행시간을 가지고 있고, 더작은 메모리 사용이 가능하다. 또한 카테고리형 피처의 자동 변환과 최적변환이 가능하다는 것이 장점이다. LightGBM 의 파라미터¶ LightGBM 은 XGB 와 다르게 리프노드가 계속 분할 되면서, 트리의 깊이가 깊어지므로 이러한 트리 특성에 맞느 하이퍼 파라미터가 필요하다, 주요 파라미터는 다음과 같다. num_iterations : default 값은 100 이며, 반복 수행하려는 트리의 개수를 지정한다. learning rate : default 값은 0.1 이며, 작을 수 록 예측 성능이 좋아지나, 학습이 길어진다는 것도 고려해야 한다. max_depth : 트리 기반의 max_depth 와..
-
XGboost (Ensemble 학습법)머신러닝(MACHINE LEARNING) 2021. 4. 14. 14:46
XGBoost¶ XGBoost 는 트리 기반의 ensemble 알고리즘 학습법에서 가장 각광받고 있는 알고리즘 중 하나입니다. 기존의 GBM 을 기반으로 하고 있지만, 느린 수행시간, 과적합 규제등을 해결한 알고리즘 이다. 뛰어난 예측 성능 GBM 대비 빠른 수행 시간 과적합 규제(Overfitting Regularization) Tree pruning(트리 가지치기) : 긍정 이득이 없는 분할을 가지치기해서 분할 수를 줄임 자체 내장된 교차 검증 반복 수행시마다 내부적으로 교차검증을 수행해 최적회된 반복 수행횟수를 가질 수 있음 지정된 반복횟수가 아니라 교차검증을 통해 평가 데이트세트의 평가 값이 최적화되면 반복을 중간에 멈출 수 있는 기능이 있음 결손값 자체 처리 In [5]: # 주요 파라매터에 관..
-
교차 검증을 위한 Cross_val_score() 함수 사용법머신러닝(MACHINE LEARNING) 2021. 4. 13. 22:23
사이킷 런(Scikit-Learn) 에서 보다 쉬운 교차검증 API - cross_val_score()¶ -사이킷 런에서는 교차검증(K-Fold or StratifiedKFold) 를 더 쉽게 할 수 있는 API를 제공하는 데 그것은 cross_val_score 이다. cross_val_score 에는 여러가지 변수 값들이 있지만 중요한 몇가지만 알아보자. estimator = > 분류 알고리즘(Classifier) 또는 회귀 (Regressor) 인지 구분 인자 X => feature 데이터 세트 Y => 레이블 데이터 세트 scoring => 예측 성능 평가 지표( 'accuracy', 'neg_brier_score' , 'top_k_accuracy'등등 겁나많다...) cv => 교차 검증 폴드 수..