사이킷런

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (31) LinearRegression을 활용한 보스턴 주택 가격 회귀 분석

사이킷런 LinearRegression을 활용한 보스턴 주택 가격 예측 LinearRegression 클래스 - Ordinary Least Squares LinearRegression는 RSS를 최소화해 OLS(Ordinary Least Sqaures) 추정 방식으로 구현한 클래스이다. 회귀 계수(Coefficients)인 W를 coef_ 속성에 저장한다 fit_intercept: default=True, 절편값을 계산할건지 말지를 지정함. False면 0으로 지정 normalize: default=False, 회귀 수행 전에 입력데이터셋을 정규화함. fit_intersept가 False인 경우에 이 파라미터는 무시됨 coef_: fit을 수행했을 때, 회귀 계수가 배열 형태로 저장하는 속성. shape..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (30) 회귀 개요, 경사하강법(Regression, Gradient Descent)

회귀 Regression 데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계 기법 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 종류 일반 선형 회귀: 실제값과 예측값의 차이(오류의 제곱값)를 최소화하는 직선형 회귀선을 최적화하는 방식, 규제를 적용하지 않음 릿지 회귀: 선형 회귀에 L2규제를 추가한 모델(회귀계수값을 작게 만드는) 라쏘 회귀: 선형 회귀에 L1규제를 적용한 방식(피처가 선택되지 않게 만드는) 엘라스틱넷 회귀: 선형 회귀에 L1, L2규제를 함께 결합한 모델(L1으로 피처 개수를 줄임과 동시에 L2로 계수값을 조절) 로지스틱 회귀: 회귀라는 이름이 붙었지만, 강력한 분류 알고리즘. 이진 분류뿐만 아니라 텍스트 분류같은 영역에서도 뛰어남 RSS, 오차제곱합을..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (17) 결정 트리 모델의 시각화- Graphviz, export_graphviz()

결정 트리 모델의 시각화 Graphviz 패키지: 그래프 기반의 dot파일로 기술된 다양한 이미지를 쉽게 시각화할 수 있는 패키지(파이썬으로 개발 X >> 윈도우에 설치 후 파이썬 Wrapper 모듈 별도 설치 필요) 사이킷런은 Graphviz 패키지와 쉽게 인터페이스할 수 있도록 export_graphviz() 제공 학습이 완료된 Estimator, 피처 이름 리스트, 레이블 이름 리스트를 입력하면 결정 트리 규칙을 시각화해줌 https://graphviz.org/download iris 데이터셋을 결정트리를 이용해 학습한 뒤 어떻게 규칙이 만들어지는지 확인해보자 In [2]: from sklearn.tree import DecisionTreeClassifier from sklearn.datasets ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (16) 분류 모델 개요, 결정 트리 특징(Classification, Decision Tree)

분류 classification의 개요 지도학습은 명시적인 정답(레이블)이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식 대표적인 유형인 '분류'는 학습데이터로 주어진 데이터의 피처와 레이블값을 머신러닝 알고리즘으로 학습해 모델을 생성하고, 새로운 모델에 새로운 데이터값이 주어졌을 때 미지의 레이블 값을 예측하는 것 ex) 베이즈 통계와 생성 모델에 기반한 나이브 베이즈, 독립변수와 종속변수의 선형관계성에 기반한 로지스틱 회귀, 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신 등.. 2. 앙상블은 분류에서 가장 각광받는 방법 중 하나임. 정형데이터의 예측 분석에서는 앙상블이 매우 높은 예측 성능을 보임 일반적으로 배깅(bagging)과 부스팅(boosting)으로 나뉨 전..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (15) - 피마 인디언 당뇨병 예측, 평가(Pima Indian Diabetes Prediction)

피마 인디언 당뇨병 예측 Pima Indian Diabetes 데이터셋을 이용해 당뇨병 여부를 판단하는 머신러닝 예측 모델 만들고 평가 지표 적용하기 데이터셋은 캐글에서 다운로드: https://www.kaggle.com/datasets/uciml/pima-indians-diabetes-database Pregnancies: 임신 횟수 Glucose: 포도당 부하 검사 수치 BloodPressure: 혈압 SkinThickness: 팔 삼두근 뒤쪽 피하지방 측정값 Insulin: 혈청 인슐린 BMI: 체질량지수 DiabetesPedigreeFunction: 당뇨 내력 가중치값 Age: 나이 Outcome: 클래스 결정값(0 또는 1) Pima Indians Diabetes Database Predict ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (14) ROC곡선과 AUC - roc_curve(), roc_auc_score()

ROC곡선과 AUC ROC곡선과 이에 기반한 AUC스코어는 이진 분류의 예측 성능 측정에서 중요하게 사용되는 지표 ROC곡선은 FPR(False Positive Rate, X축)이 변할 때, TPR(True Positive Rate, 재현율, Y축)이 어떻게 변하는가를 곡선 형태로 나타냄 특이도(TNR, True Negative Rate): 재현율(민감도)에 대응하는 지표, 실제값 negative가 정확히 예측되어야 하는 수준을 나타냄 ex) 질병이 없는 건강한 사람은 질병이 없는 음성으로 판정 ㄴ TNR = TN / (FP + TN) FPR = FP / (FP + TN) 1 - TNR ROC 곡선이 가운데 직선에 가까울수록 성능이 떨어지고, 멀어질수록 성능이 뛰어난 것 ROC곡선은 FPR을 0부터 1까..

얆생
'사이킷런' 태그의 글 목록