Data Science/파이썬 머신러닝 완벽 가이드

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (9) - 데이터 스케일링 Data Scaling

(데이콘 커뮤니티에서 참고함 https://dacon.io/codeshare/4526) sklearn으로 데이터 스케일링(Data Scaling)하는 5가지 방법🔥 dacon.io 데이터 스케일링 Data Scaling 피처들마다 데이터값 범위가 제각각이기 때문에 범위 차이가 클 경우, 모델링에 방해가 됨 스케일링을 통해 모든 피처들의 데이터 분포나 범위를 동일하게 조정해줄 수 있음 훈련용 데이터셋은 fit 메서드를 적용시킨 후 transform, 테스트용 데이터셋에는 transform만 적용 In [45]: #라이브러리 정의 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from sk..

Data Science/파이썬 머신러닝 완벽 가이드

[kaggle] 타이타닉 생존률 예측하기 (2) - 모델링

In [11]: #남은 문자열 피처들을 숫자형으로 인코딩하기 from sklearn.preprocessing import LabelEncoder #여러 칼럼을 encode_feature() 함수를 생성하여 한번에 변환하기 def encode_features(dataDF): features = ['Cabin', 'Sex', 'Embarked'] for feature in features: le = LabelEncoder() le = le.fit(dataDF[feature]) dataDF[feature] = le.transform(dataDF[feature]) return dataDF titanic_df = encode_features(titanic_df) titanic_df.head() Out[11]: P..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (8) - 데이터 전처리(LabelEncoder, OneHotEncoder, get_dummies, StandardScaler, MinMaxScaler)

데이터 전처리 Data Preprocessing 문자열 값을 입력값으로 허용하지 않음, 모든 문자열 값은 인코딩돼서 숫자형으로 변환해야 함 데이터 인코딩 레이블 인코딩 Label Encoding 카테고리 feature를 코드형 숫자값으로 변환하는 것 LabelEncoder 클래스로 구현 In [2]: from sklearn.preprocessing import LabelEncoder items = ['TV', '냉장고', '전자레인지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'] #LabelEncoder를 객체로 생성 후 fit과 transform으로 레이블 인코딩 수행 encoder = LabelEncoder() encoder.fit(items) labels = encoder.trans..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (7) - GridSearchCV

GridSearchCV - 교차 검증과 최적 하이퍼 파라미터 튜닝을 한 번에 ¶ 하이퍼 파라미터 값을 조정하여 알고리즘의 예측 성능을 개선할 수 있음 In [1]: grid_parameters = {'max_depth': [1, 2, 3], 'min_samples_split': [2, 3] } GridSearchCV 클래스의 input인자¶ estimator: classifier, regressor, pipeline 등 param_grid: key + 리스트값을 가지는 딕셔너리가 주어짐. estimator 튜닝을 위해 파라미터명과 사용될 여러 파라미터 값을 지정 scoring: 예측 성능을 측정할 평가 방법을 지정. 보통은 accuracy로 지정함 cv: 교차 검증을 위해 분할되는 학습/테스트 세트의 개..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (6) - train_test_split, KFold, StratifiedKFold, cross_val_score

Model Selection 모듈¶ 학습/테스트 데이터 세트 분리 - train_test_split()¶ parameter test_size shuffle: 데이터 분리 전에 미리 섞을지 결정, 디폴트는 True random_state train_test_split의 반환값은 튜플 형태 In [1]: from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import pandas as pd In [4]: dt_clf = DecisionT..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (5) scikit-learn 기반 프레임워크 익히기

사이킷런의 기반 프레임워크 익히기¶ Estimator 이해 및 fit( ), predict( ) 메서드¶ 분류 알고리즘을 구현한 클래스: Classifier, 회귀 알고리즘을 구현한 클래스 Regressor 이들 Classifier와 Regressor를 합쳐서 Estimator 클래스라고 부름, 즉 지도학습의 모든 알고리즘을 구현한 클래스를 통칭 Estimator 클래스는 fit()과 predict()를 내부에서 구현함 비지도학습을 구현한 클래스도 대부분 fit()과 transform()을 적용, but fit()은 학습의 의미가 아니라 입력데이터 형태에 맞춰 데이터를 변환하기 위한 사전 구조 맞추는 작업용 실제 작업은 transform()이 수행 내장된 예제 데이터세트¶ fetch 계열의 명령은 데이터..

얆생
'Data Science/파이썬 머신러닝 완벽 가이드' 카테고리의 글 목록 (8 Page)