https://dacon.io/competitions/open/236065/overview/description 보스턴 집값 예측 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 데이콘에서 교육용 연습대회에 참가해보았다. 보스턴 집값 경진대회¶ https://dacon.io/competitions/open/236065/overview/description CRIM: 도시별 1인당 범죄율 ZN: 25,000 피트를 초과하는 주거용 토지의 비율 NDUS: 비상업 면적의 비율 CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX: 일산화질소 농도 RM: 주택당 평균 방의 개수 AGE: 1940년 이전에 건축된..
성능 평가 지표 정확도(Accuracy) 정확도는 전체 예측 데이터 건수 중 예측 결과가 동일한 데이터 건수로 계산 scikit-learn에서는 accuracy_score 함수를 제공 In [60]: from sklearn.datasets import make_classification from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score X, y = make_classification(n_samples=1000, n_features=2, n_informative=2, n_redundant=0, n_clusters_per_class=1) X_train, X_test, y_train, y_t..
preprocessing 데이터 전처리 모듈 데이터의 특징 스케일링(feature scaling)을 위한 방법으로 표준화(Standardization)와 정규화(Normalization) 사용 표준화 방법 정규화 방법 scikit-learn에서는 개별 벡터 크기를 맞추는 형태로 정규화 StandardScaler: 표준화 클래스 In [37]: iris = load_iris() iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names) iris_df.describe() Out[37]: sepal length (cm) sepal width (cm) petal length (cm) petal width (cm) count 150.000000 150...
model_selection 모듈 학습용 데이터와 테스트 데이터로 분리 교차 검증 분할 및 평가 Estimator의 하이퍼 파라미터 튜닝을 위한 다양한 함수와 클래스 제공 train_test_split(): 학습/테스트 데이터 세트 분리 In [32]: from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split from sklearn.datasets import load_diabetes diabetes = load_diabetes() X_train, X_test, y_train, y_test = train_test_split(diabetes.data, diabetes.target,..
scikit-learn 특징 다양한 머신러닝 알고리즘을 구현한 파이썬 라이브러리 심플하고 일관성 있는 API, 유용한 온라인 문서, 풍부한 예제 머신러닝을 위한 쉽고 효율적인 개발 라이브러리 제공 다양한 머신러닝 관련 알고리즘과 개발을 위한 프레임워크와 API 제공 많은 사람들이 사용하며 다양한 환경에서 검증된 라이브러리 scikit-learn 주요 모듈 sklearn.datasets 내장된 예제 데이터 세트 sklearn.preprocessing 다양한 데이터 전처리 기능 제공 (변환, 정규화, 스케일링 등) sklearn.feature_selection 특징(feature)를 선택할 수 있는 기능 제공 sklearn.feature_extraction 특징(feature) 추출에 사용 sklearn.d..