'sklearn' 태그의 글 목록 (7 Page)

[sklearn] (6) - train_test_split, KFold, StratifiedKFold, cross_val_score

2023.04.30

Model Selection 모듈¶ 학습/테스트 데이터 세트 분리 - train_test_split()¶ parameter test_size shuffle: 데이터 분리 전에 미리 섞을지 결정, 디폴트는 True random_state train_test_split의 반환값은 튜플 형태 In [1]: from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import pandas as pd In [4]: dt_clf = DecisionT..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (5) scikit-learn 기반 프레임워크 익히기

2023.04.30

사이킷런의 기반 프레임워크 익히기¶ Estimator 이해 및 fit( ), predict( ) 메서드¶ 분류 알고리즘을 구현한 클래스: Classifier, 회귀 알고리즘을 구현한 클래스 Regressor 이들 Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부름, 즉 지도학습의 모든 알고리즘을 구현한 클래스를 통칭 Estimator 클래스는 fit()과 predict()를 내부에서 구현함 비지도학습을 구현한 클래스도 대부분 fit()과 transform()을 적용, but fit()은 학습의 의미가 아니라 입력데이터 형태에 맞춰 데이터를 변환하기 위한 사전 구조 맞추는 작업용 실제 작업은 transform()이 수행 내장된 예제 데이터세트¶ fetch 계열의 명령은 데이터..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (4) iris 품종 분류 예측하기

2023.04.30

붓꽃 품종 예측하기 ¶ sklearn.datasets 모듈: 사이킷런에서 자체 제공하는 데이터 셋 생성¶ sklearn.tree 모듈: 트리 기반 ML알고리즘(의사 결정 트리)을 구현한 클래스 모임 sklearn.model_selection 모듈: 학습데이터와 검증데이터, 예측데이터로 데이터를 분리하거나, 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임 ¶ 1. 라이브러리 정의¶ In [2]: import sklearn from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split 2. 데이터 불러오기¶ In..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (3) 모델 성능 평가 지표

2023.04.20

성능 평가 지표 정확도(Accuracy) 정확도는 전체 예측 데이터 건수 중 예측 결과가 동일한 데이터 건수로 계산 scikit-learn에서는 accuracy_score 함수를 제공 In [60]: from sklearn.datasets import make_classification from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1) X_train, X_test, y_train, y_t..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (2) preprocessing 데이터 전처리 모듈

2023.04.20

preprocessing 데이터 전처리 모듈 데이터의 특징 스케일링(feature scaling)을 위한 방법으로 표준화(Standardization)와 정규화(Normalization) 사용 표준화 방법 정규화 방법 scikit-learn에서는 개별 벡터 크기를 맞추는 형태로 정규화 StandardScaler: 표준화 클래스 In [37]: iris = load_iris() iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names) iris_df.describe() Out[37]: sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) count 150.000000 150...

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (1) model_selection 모듈

2023.04.20

model_selection 모듈 학습용 데이터와 테스트 데이터로 분리 교차 검증 분할 및 평가 Estimator의 하이퍼 파라미터 튜닝을 위한 다양한 함수와 클래스 제공 train_test_split(): 학습/테스트 데이터 세트 분리 In [32]: from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes diabetes = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target,..

티스토리툴바