결정트리

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (23) - XGBoost (eXtra Gradient Boost)

XGBoost(eXtra Gradient Boost) 기존 GBM보다 빠르게 학습을 완료할 수 있음 분류, 회귀에서 뛰어난 예측 성능을 보임 XGBoost는 자체에 과적합 규제 기능이 있어서 강한 내구성을 가짐 tree_pruning(가지치기)로 더 이상 긍정 이득이 없는 분할을 가지치기해서 분할 수를 줄임 반복 수행 시마다 내부적으로 교차검증을 수행, 최적화된 교차검증 횟수를 가질 수 있음 결손값을 자체 처리할 수 있음 XGBoost 패키지의 사이킷런 wrapper class는 XGBClassifier와 XGBRegressor를 제공 ! 파이썬 래퍼 XGBoost 모듈: 초기의 독자적인 XGBoost 전용 파이썬 패키지 ! 사이킷런 래퍼 XGBoost 모듈: 사이킷런과 연동되는 모듈 파이썬 래퍼 XGB..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (18) 결정 트리 과적합 overfitting - make_classification(), visualize_boundary()

결정 트리 과적합 Overfitting 결정 트리가 어떻게 학습데이터를 분할해 예측을 수행하는지와 이로 인한 과적합 문제를 시각화하여 알아보자 사이킷런이 제공하는 make_classificaition() 함수를 이용해서 임의의 데이터셋 만들기 make_classification 호출 시 반환되는 객체는 피처 데이터셋과 클래스 레이블 데이터셋임 2개의 피처가 3가지 유형의 클래스값을 가지는 데이터셋 만들어보자 In [ ]: from sklearn.datasets import make_classification import matplotlib.pyplot as plt plt.title('3 Class values with 2 Features Sample data creation') #2차원 시각화를 위해서 ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (16) 분류 모델 개요, 결정 트리 특징(Classification, Decision Tree)

분류 classification의 개요 지도학습은 명시적인 정답(레이블)이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식 대표적인 유형인 '분류'는 학습데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 새로운 모델에 새로운 데이터값이 주어졌을 때 미지의 레이블 값을 예측하는 것 ex) 베이즈 통계와 생성 모델에 기반한 나이브 베이즈, 독립변수와 종속변수의 선형관계성에 기반한 로지스틱 회귀, 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신 등.. 2. 앙상블은 분류에서 가장 각광받는 방법 중 하나임. 정형데이터의 예측 분석에서는 앙상블이 매우 높은 예측 성능을 보임 일반적으로 배깅(bagging)과 부스팅(boosting)으로 나뉨 전..

얆생
'결정트리' 태그의 글 목록