머신러닝
-
정규 분포 (Gaussian Distribution)머신러닝(MACHINE LEARNING)/통계(Statistics) 2021. 6. 8. 17:26
0. 서론 - 정규분포는 18세기 후반 과 19세기 초반의 위대한 독일의 수학자 카를 프리드리히 가우스이 이름을 따 가우스 분포 Gaussinan_Distribution 이라고도 불리는데, 다음과 같은 공식을 따른다. 1. 공식 가우시안 정규분포를 그려보게 되면 다음과 같은 형태를 띄게 된다. from numpy import random import seaborn as sns sns.distplot(random.normal(size=1000), hist=False) plt.show() 2. 정규분포의 정규화(Normalized) 확인 - 정규분포가 정규화 즉, 다음을 만족시키는지 확인해보자. - 제일 간단한 형태부터 시작하기 위해서 \( u = 0 \), 즉 평균은 0일 때부터 확인해보자. - \( u ..
-
LightGBM 데이터 분류머신러닝(MACHINE LEARNING) 2021. 4. 14. 17:25
LightGMB 의 장점¶ LightGBM 은 XGB보다 더빠른 학습과 에측 수행시간을 가지고 있고, 더작은 메모리 사용이 가능하다. 또한 카테고리형 피처의 자동 변환과 최적변환이 가능하다는 것이 장점이다. LightGBM 의 파라미터¶ LightGBM 은 XGB 와 다르게 리프노드가 계속 분할 되면서, 트리의 깊이가 깊어지므로 이러한 트리 특성에 맞느 하이퍼 파라미터가 필요하다, 주요 파라미터는 다음과 같다. num_iterations : default 값은 100 이며, 반복 수행하려는 트리의 개수를 지정한다. learning rate : default 값은 0.1 이며, 작을 수 록 예측 성능이 좋아지나, 학습이 길어진다는 것도 고려해야 한다. max_depth : 트리 기반의 max_depth 와..
-
XGboost (Ensemble 학습법)머신러닝(MACHINE LEARNING) 2021. 4. 14. 14:46
XGBoost¶ XGBoost 는 트리 기반의 ensemble 알고리즘 학습법에서 가장 각광받고 있는 알고리즘 중 하나입니다. 기존의 GBM 을 기반으로 하고 있지만, 느린 수행시간, 과적합 규제등을 해결한 알고리즘 이다. 뛰어난 예측 성능 GBM 대비 빠른 수행 시간 과적합 규제(Overfitting Regularization) Tree pruning(트리 가지치기) : 긍정 이득이 없는 분할을 가지치기해서 분할 수를 줄임 자체 내장된 교차 검증 반복 수행시마다 내부적으로 교차검증을 수행해 최적회된 반복 수행횟수를 가질 수 있음 지정된 반복횟수가 아니라 교차검증을 통해 평가 데이트세트의 평가 값이 최적화되면 반복을 중간에 멈출 수 있는 기능이 있음 결손값 자체 처리 In [5]: # 주요 파라매터에 관..