머신러닝

Data Science/Dacon

[분류] 유전체 정보 품종 분류 AI 경진대회 (2) - AutoML을 이용한 모델링 3가지

1. pycaret https://github.com/kimseojin0-0/project/blob/main/%EC%9C%A0%EC%A0%84%EC%B2%B4_%EC%A0%95%EB%B3%B4_%ED%92%88%EC%A2%85_%EB%B6%84%EB%A5%98_AutoML_pycaret.ipynb GitHub - kimseojin0-0/project: 데이콘, 캐글, 데이터 공모전, 해커톤 가리지 않고 프로젝트 정리하는 공 데이콘, 캐글, 데이터 공모전, 해커톤 가리지 않고 프로젝트 정리하는 공간. Contribute to kimseojin0-0/project development by creating an account on GitHub. github.com 2. h2o https://github.co..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (23) - XGBoost (eXtra Gradient Boost)

XGBoost(eXtra Gradient Boost) 기존 GBM보다 빠르게 학습을 완료할 수 있음 분류, 회귀에서 뛰어난 예측 성능을 보임 XGBoost는 자체에 과적합 규제 기능이 있어서 강한 내구성을 가짐 tree_pruning(가지치기)로 더 이상 긍정 이득이 없는 분할을 가지치기해서 분할 수를 줄임 반복 수행 시마다 내부적으로 교차검증을 수행, 최적화된 교차검증 횟수를 가질 수 있음 결손값을 자체 처리할 수 있음 XGBoost 패키지의 사이킷런 wrapper class는 XGBClassifier와 XGBRegressor를 제공 ! 파이썬 래퍼 XGBoost 모듈: 초기의 독자적인 XGBoost 전용 파이썬 패키지 ! 사이킷런 래퍼 XGBoost 모듈: 사이킷런과 연동되는 모듈 파이썬 래퍼 XGB..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (20) 랜덤 포레스트 RandomForestClassifier

랜덤 포레스트 앙상블 알고리즘 중 비교적 빠른 수행 속도를 가짐 기반 알고리즘은 결정 트리, 그래서 쉽고 직관적인 장점을 그대로 가짐 여러 개의 결정 트리 classifier가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 됨 랜덤 포레스트는 개별 분류기의 기반은 결정 트리이지만 개별 트리가 학습하는 데이터셋은 일부가 중첩되게 샘플링되었음 >> 부트스트래핑 분할 방식 서브세트 데이터는 부트스트래핑으로 임의로 만들어짐 서브세트 데이터 건수는 전체 데이터 건수와 동일하지만, 개별 데이터가 중첩됨 사이킷런은 RandomForestClassifier 클래스를 지원 In [1]: from google.colab impor..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (18) 결정 트리 과적합 overfitting - make_classification(), visualize_boundary()

결정 트리 과적합 Overfitting 결정 트리가 어떻게 학습데이터를 분할해 예측을 수행하는지와 이로 인한 과적합 문제를 시각화하여 알아보자 사이킷런이 제공하는 make_classificaition() 함수를 이용해서 임의의 데이터셋 만들기 make_classification 호출 시 반환되는 객체는 피처 데이터셋과 클래스 레이블 데이터셋임 2개의 피처가 3가지 유형의 클래스값을 가지는 데이터셋 만들어보자 In [ ]: from sklearn.datasets import make_classification import matplotlib.pyplot as plt plt.title('3 Class values with 2 Features Sample data creation') #2차원 시각화를 위해서 ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (17) 결정 트리 모델의 시각화- Graphviz, export_graphviz()

결정 트리 모델의 시각화 Graphviz 패키지: 그래프 기반의 dot파일로 기술된 다양한 이미지를 쉽게 시각화할 수 있는 패키지(파이썬으로 개발 X >> 윈도우에 설치 후 파이썬 Wrapper 모듈 별도 설치 필요) 사이킷런은 Graphviz 패키지와 쉽게 인터페이스할 수 있도록 export_graphviz() 제공 학습이 완료된 Estimator, 피처 이름 리스트, 레이블 이름 리스트를 입력하면 결정 트리 규칙을 시각화해줌 https://graphviz.org/download iris 데이터셋을 결정트리를 이용해 학습한 뒤 어떻게 규칙이 만들어지는지 확인해보자 In [2]: from sklearn.tree import DecisionTreeClassifier from sklearn.datasets ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (16) 분류 모델 개요, 결정 트리 특징(Classification, Decision Tree)

분류 classification의 개요 지도학습은 명시적인 정답(레이블)이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식 대표적인 유형인 '분류'는 학습데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 새로운 모델에 새로운 데이터값이 주어졌을 때 미지의 레이블 값을 예측하는 것 ex) 베이즈 통계와 생성 모델에 기반한 나이브 베이즈, 독립변수와 종속변수의 선형관계성에 기반한 로지스틱 회귀, 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신 등.. 2. 앙상블은 분류에서 가장 각광받는 방법 중 하나임. 정형데이터의 예측 분석에서는 앙상블이 매우 높은 예측 성능을 보임 일반적으로 배깅(bagging)과 부스팅(boosting)으로 나뉨 전..

얆생
'머신러닝' 태그의 글 목록