sklearn

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (35) 회귀 트리 RandomForestRegressor, DecisionTreeRegressor...

회귀 트리 지금까지 알아 본 선형 회귀는 회귀 계수의 관계를 모두 선형으로 가정하는 방식이다 비선형 회귀 역시 비선형 회귀 함수를 통해 결과값을 예측한다 머신러닝 기반의 회귀는 회귀 계수를 기반으로 하는 최적 회귀 함수를 도출하는 것이 주 목표다 이번에는 트리를 기반으로 하는 회귀 방식을 알아보자 트리 기반의 회귀 회귀를 위한 트리를 생성하고 이를 기반으로 회귀 예측을 한다 분류 트리와 크게 다르지 않지만, 리프 노드에서 예측 결정값을 만드는 과정에서 차이가 있다 → 분류 트리가 특정 레이블을 결정하는 것과 달리 회귀 트리는 리프 노드가 속한 데이터값의 평균값을 구해 회귀 예측 값을 계산한다 결정 트리, 랜덤 포레스트, GBM, LightGBM, XGBoost 등과 같은 트리 기반 알고리즘은 분류뿐만 아..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (34) 로지스틱 회귀 LogisticRegression

로지스틱 회귀 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘이다 로지스틱이 선형 회귀와 다른 점은 학습을 통해 선형 함수의 최적선을 찾는 것이 아니라 시그모이드 함수 최적선을 찾고 반환값을 확률로 간주해 확률에 따라 분류를 결정하는 것 y = 1/(1+e − x) 시그모이드 함수는 x값이 아무리 커지거나 작아져도 y값은 항상 0과 1사이를 반환한다. LogisticRegression 클래스의 solver 파라미터에서는 Ibfgs, liblinear, newton-cg, sag, saga 값을 적용해서 최적화를 선택할 수 있다 Ibfgs: 사이킷런 0.22 버전부터 solver의 기본값, 메모리 공간 절약, CPU 코어 수가 많다면 최적화를 병렬로 수행 liblinear: 버전 0.21까지는 얘..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (33) 규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷 회귀

규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷 규제 선형 모델 선형 모델의 과적합을 방지하기 위해서 비용 함수는 RSS를 최소화하는 방법과 회귀 계수값이 커지지 않도록 하는 방법이 서로 균형을 이뤄야한다. alpha는 학습 데이터 적합 정도와 회귀 계수값의 크기 제어를 수행하는 튜닝 파라미터 alpha가 RSS(W)+alpha||W||를 최소화는 W벡터를 찾는 것일 때, alpha가 어떤 역할을 할까? alpha가 0 또는 매우 작은 값이라면 비용 함수식은 기존과 동일할 것이다. alpha가 무한대 또는 매우 큰 값이라면 비용 함수식은 RSS(W)에 비해 alpha*~ 값이 너무 커지므로 W값을 매우 작게 만들어야 cost가 최소화될 수 있을 것이다. 즉, alpha값을 크게 하면 비용 함수는 W값을 작게..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (32) 다항 회귀와 과대적합/과소적합

다항 회귀와 과대적합/과소적합 이해 다항 회귀 회귀가 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현되는 것을 다항 회귀라고 함 다항 회귀도 선형 회귀 회귀에서 선형/비선형을 나누는 기준은 독립변수의 선형/비선형 여부가 아니라 '회귀계수'의 선형/비선형 여부이다 사이킷런에서는 다항 회귀를 위한 클래스를 따로 제공하지 않기 때문에 비선형 함수를 선형 모델에 적용시키는 방법으로 구현함 >> PolynomialFeatures 이용 2차 In [1]: from sklearn.preprocessing import PolynomialFeatures import numpy as np #다항식으로 변환한 단항식 생성, 2X2 행렬 생성 X = np.arange(4).reshape(2,2) print..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (31) LinearRegression을 활용한 보스턴 주택 가격 회귀 분석

사이킷런 LinearRegression을 활용한 보스턴 주택 가격 예측 LinearRegression 클래스 - Ordinary Least Squares LinearRegression는 RSS를 최소화해 OLS(Ordinary Least Sqaures) 추정 방식으로 구현한 클래스이다. 회귀 계수(Coefficients)인 W를 coef_ 속성에 저장한다 fit_intercept: default=True, 절편값을 계산할건지 말지를 지정함. False면 0으로 지정 normalize: default=False, 회귀 수행 전에 입력데이터셋을 정규화함. fit_intersept가 False인 경우에 이 파라미터는 무시됨 coef_: fit을 수행했을 때, 회귀 계수가 배열 형태로 저장하는 속성. shape..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (30) 회귀 개요, 경사하강법(Regression, Gradient Descent)

회귀 Regression 데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계 기법 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 종류 일반 선형 회귀: 실제값과 예측값의 차이(오류의 제곱값)를 최소화하는 직선형 회귀선을 최적화하는 방식, 규제를 적용하지 않음 릿지 회귀: 선형 회귀에 L2규제를 추가한 모델(회귀계수값을 작게 만드는) 라쏘 회귀: 선형 회귀에 L1규제를 적용한 방식(피처가 선택되지 않게 만드는) 엘라스틱넷 회귀: 선형 회귀에 L1, L2규제를 함께 결합한 모델(L1으로 피처 개수를 줄임과 동시에 L2로 계수값을 조절) 로지스틱 회귀: 회귀라는 이름이 붙었지만, 강력한 분류 알고리즘. 이진 분류뿐만 아니라 텍스트 분류같은 영역에서도 뛰어남 RSS, 오차제곱합을..

얆생
'sklearn' 태그의 글 목록 (2 Page)