DecisionTree

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (20) 랜덤 포레스트 RandomForestClassifier

랜덤 포레스트 앙상블 알고리즘 중 비교적 빠른 수행 속도를 가짐 기반 알고리즘은 결정 트리, 그래서 쉽고 직관적인 장점을 그대로 가짐 여러 개의 결정 트리 classifier가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 됨 랜덤 포레스트는 개별 분류기의 기반은 결정 트리이지만 개별 트리가 학습하는 데이터셋은 일부가 중첩되게 샘플링되었음 >> 부트스트래핑 분할 방식 서브세트 데이터는 부트스트래핑으로 임의로 만들어짐 서브세트 데이터 건수는 전체 데이터 건수와 동일하지만, 개별 데이터가 중첩됨 사이킷런은 RandomForestClassifier 클래스를 지원 In [1]: from google.colab impor..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (16) 분류 모델 개요, 결정 트리 특징(Classification, Decision Tree)

분류 classification의 개요 지도학습은 명시적인 정답(레이블)이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식 대표적인 유형인 '분류'는 학습데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 새로운 모델에 새로운 데이터값이 주어졌을 때 미지의 레이블 값을 예측하는 것 ex) 베이즈 통계와 생성 모델에 기반한 나이브 베이즈, 독립변수와 종속변수의 선형관계성에 기반한 로지스틱 회귀, 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신 등.. 2. 앙상블은 분류에서 가장 각광받는 방법 중 하나임. 정형데이터의 예측 분석에서는 앙상블이 매우 높은 예측 성능을 보임 일반적으로 배깅(bagging)과 부스팅(boosting)으로 나뉨 전..

얆생
'DecisionTree' 태그의 글 목록