Data Science/파이썬 머신러닝 완벽 가이드
[sklearn] (20) 랜덤 포레스트 RandomForestClassifier
랜덤 포레스트 앙상블 알고리즘 중 비교적 빠른 수행 속도를 가짐 기반 알고리즘은 결정 트리, 그래서 쉽고 직관적인 장점을 그대로 가짐 여러 개의 결정 트리 classifier가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 됨 랜덤 포레스트는 개별 분류기의 기반은 결정 트리이지만 개별 트리가 학습하는 데이터셋은 일부가 중첩되게 샘플링되었음 >> 부트스트래핑 분할 방식 서브세트 데이터는 부트스트래핑으로 임의로 만들어짐 서브세트 데이터 건수는 전체 데이터 건수와 동일하지만, 개별 데이터가 중첩됨 사이킷런은 RandomForestClassifier 클래스를 지원 In [1]: from google.colab impor..