Data Science/파이썬 머신러닝 완벽 가이드

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (21) 사용자 행동 인식 예측 분류 - DecisionTreeClassifier

사용자 행동 인식 예측 분류 결정 트리를 이용하여 UCI Machine Learning Repository에서 제공하는 사용자 행동 인식 데이터셋에 대한 예측 분류를 해보자 해당 데이터는 30명에게 스마트폰 센서를 장착한 뒤 사람의 동작과 관련된 여러가지 피처를 수집한 데이터이다 https://archive.ics.uci.edu/ml/datasets/human+activity+recognition+using+smartphones 피처는 모두 561개, 공백으로 분리되어 있음 In [2]: from google.colab import files uploaded = files.upload() Upload widget is only available when the cell has been executed i..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (20) 랜덤 포레스트 RandomForestClassifier

랜덤 포레스트 앙상블 알고리즘 중 비교적 빠른 수행 속도를 가짐 기반 알고리즘은 결정 트리, 그래서 쉽고 직관적인 장점을 그대로 가짐 여러 개의 결정 트리 classifier가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 됨 랜덤 포레스트는 개별 분류기의 기반은 결정 트리이지만 개별 트리가 학습하는 데이터셋은 일부가 중첩되게 샘플링되었음 >> 부트스트래핑 분할 방식 서브세트 데이터는 부트스트래핑으로 임의로 만들어짐 서브세트 데이터 건수는 전체 데이터 건수와 동일하지만, 개별 데이터가 중첩됨 사이킷런은 RandomForestClassifier 클래스를 지원 In [1]: from google.colab impor..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (19) 앙상블 기법 Ensemble, 위스콘신 유방암 데이터 - VotingClassifier(), load_breast_cancer()

앙상블 학습 앙상블 기법: 여러 개의 분류기(classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 대부분의 정형데이터 분류 시에는 앙상블이 뛰어난 성능을 나타내고 있음 대표적으로 랜덤포레스트와 그라디언트 부스팅 알고리즘이 있음 최신 기법으로는 XGBoost(eXtra Gradiant Boost)와 LightGBM(Light Gradiant Boost), Stacking이 주목 받음 보팅(Voting): 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합하는 것 배깅(Bagging): 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만, 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행하는 것 >> 랜덤 포레스트 붓스트래핑(bootstrapping): 개별 cl..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (18) 결정 트리 과적합 overfitting - make_classification(), visualize_boundary()

결정 트리 과적합 Overfitting 결정 트리가 어떻게 학습데이터를 분할해 예측을 수행하는지와 이로 인한 과적합 문제를 시각화하여 알아보자 사이킷런이 제공하는 make_classificaition() 함수를 이용해서 임의의 데이터셋 만들기 make_classification 호출 시 반환되는 객체는 피처 데이터셋과 클래스 레이블 데이터셋임 2개의 피처가 3가지 유형의 클래스값을 가지는 데이터셋 만들어보자 In [ ]: from sklearn.datasets import make_classification import matplotlib.pyplot as plt plt.title('3 Class values with 2 Features Sample data creation') #2차원 시각화를 위해서 ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (17) 결정 트리 모델의 시각화- Graphviz, export_graphviz()

결정 트리 모델의 시각화 Graphviz 패키지: 그래프 기반의 dot파일로 기술된 다양한 이미지를 쉽게 시각화할 수 있는 패키지(파이썬으로 개발 X >> 윈도우에 설치 후 파이썬 Wrapper 모듈 별도 설치 필요) 사이킷런은 Graphviz 패키지와 쉽게 인터페이스할 수 있도록 export_graphviz() 제공 학습이 완료된 Estimator, 피처 이름 리스트, 레이블 이름 리스트를 입력하면 결정 트리 규칙을 시각화해줌 https://graphviz.org/download iris 데이터셋을 결정트리를 이용해 학습한 뒤 어떻게 규칙이 만들어지는지 확인해보자 In [2]: from sklearn.tree import DecisionTreeClassifier from sklearn.datasets ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (16) 분류 모델 개요, 결정 트리 특징(Classification, Decision Tree)

분류 classification의 개요 지도학습은 명시적인 정답(레이블)이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식 대표적인 유형인 '분류'는 학습데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 새로운 모델에 새로운 데이터값이 주어졌을 때 미지의 레이블 값을 예측하는 것 ex) 베이즈 통계와 생성 모델에 기반한 나이브 베이즈, 독립변수와 종속변수의 선형관계성에 기반한 로지스틱 회귀, 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신 등.. 2. 앙상블은 분류에서 가장 각광받는 방법 중 하나임. 정형데이터의 예측 분석에서는 앙상블이 매우 높은 예측 성능을 보임 일반적으로 배깅(bagging)과 부스팅(boosting)으로 나뉨 전..

얆생
'Data Science/파이썬 머신러닝 완벽 가이드' 카테고리의 글 목록 (6 Page)