붓꽃 품종 예측하기 ¶ sklearn.datasets 모듈: 사이킷런에서 자체 제공하는 데이터 셋 생성¶ sklearn.tree 모듈: 트리 기반 ML알고리즘(의사 결정 트리)을 구현한 클래스 모임 sklearn.model_selection 모듈: 학습데이터와 검증데이터, 예측데이터로 데이터를 분리하거나, 최적의 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 모임 ¶ 1. 라이브러리 정의¶ In [2]: import sklearn from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split 2. 데이터 불러오기¶ In..
성능 평가 지표 정확도(Accuracy) 정확도는 전체 예측 데이터 건수 중 예측 결과가 동일한 데이터 건수로 계산 scikit-learn에서는 accuracy_score 함수를 제공 In [60]: from sklearn.datasets import make_classification from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1) X_train, X_test, y_train, y_t..
preprocessing 데이터 전처리 모듈 데이터의 특징 스케일링(feature scaling)을 위한 방법으로 표준화(Standardization)와 정규화(Normalization) 사용 표준화 방법 정규화 방법 scikit-learn에서는 개별 벡터 크기를 맞추는 형태로 정규화 StandardScaler: 표준화 클래스 In [37]: iris = load_iris() iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names) iris_df.describe() Out[37]: sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) count 150.000000 150...
model_selection 모듈 학습용 데이터와 테스트 데이터로 분리 교차 검증 분할 및 평가 Estimator의 하이퍼 파라미터 튜닝을 위한 다양한 함수와 클래스 제공 train_test_split(): 학습/테스트 데이터 세트 분리 In [32]: from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes diabetes = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target,..