규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷 규제 선형 모델 선형 모델의 과적합을 방지하기 위해서 비용 함수는 RSS를 최소화하는 방법과 회귀 계수값이 커지지 않도록 하는 방법이 서로 균형을 이뤄야한다. alpha는 학습 데이터 적합 정도와 회귀 계수값의 크기 제어를 수행하는 튜닝 파라미터 alpha가 RSS(W)+alpha||W||를 최소화는 W벡터를 찾는 것일 때, alpha가 어떤 역할을 할까? alpha가 0 또는 매우 작은 값이라면 비용 함수식은 기존과 동일할 것이다. alpha가 무한대 또는 매우 큰 값이라면 비용 함수식은 RSS(W)에 비해 alpha*~ 값이 너무 커지므로 W값을 매우 작게 만들어야 cost가 최소화될 수 있을 것이다. 즉, alpha값을 크게 하면 비용 함수는 W값을 작게..
다항 회귀와 과대적합/과소적합 이해 다항 회귀 회귀가 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현되는 것을 다항 회귀라고 함 다항 회귀도 선형 회귀 회귀에서 선형/비선형을 나누는 기준은 독립변수의 선형/비선형 여부가 아니라 '회귀계수'의 선형/비선형 여부이다 사이킷런에서는 다항 회귀를 위한 클래스를 따로 제공하지 않기 때문에 비선형 함수를 선형 모델에 적용시키는 방법으로 구현함 >> PolynomialFeatures 이용 2차 In [1]: from sklearn.preprocessing import PolynomialFeatures import numpy as np #다항식으로 변환한 단항식 생성, 2X2 행렬 생성 X = np.arange(4).reshape(2,2) print..
사이킷런 LinearRegression을 활용한 보스턴 주택 가격 예측 LinearRegression 클래스 - Ordinary Least Squares LinearRegression는 RSS를 최소화해 OLS(Ordinary Least Sqaures) 추정 방식으로 구현한 클래스이다. 회귀 계수(Coefficients)인 W를 coef_ 속성에 저장한다 fit_intercept: default=True, 절편값을 계산할건지 말지를 지정함. False면 0으로 지정 normalize: default=False, 회귀 수행 전에 입력데이터셋을 정규화함. fit_intersept가 False인 경우에 이 파라미터는 무시됨 coef_: fit을 수행했을 때, 회귀 계수가 배열 형태로 저장하는 속성. shape..
회귀 Regression 데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계 기법 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 종류 일반 선형 회귀: 실제값과 예측값의 차이(오류의 제곱값)를 최소화하는 직선형 회귀선을 최적화하는 방식, 규제를 적용하지 않음 릿지 회귀: 선형 회귀에 L2규제를 추가한 모델(회귀계수값을 작게 만드는) 라쏘 회귀: 선형 회귀에 L1규제를 적용한 방식(피처가 선택되지 않게 만드는) 엘라스틱넷 회귀: 선형 회귀에 L1, L2규제를 함께 결합한 모델(L1으로 피처 개수를 줄임과 동시에 L2로 계수값을 조절) 로지스틱 회귀: 회귀라는 이름이 붙었지만, 강력한 분류 알고리즘. 이진 분류뿐만 아니라 텍스트 분류같은 영역에서도 뛰어남 RSS, 오차제곱합을..
스태킹 앙상블 스태킹이 배깅, 부스팅과 다른 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것 즉, 결과데이터셋을 최종 메타 데이터셋으로 만들어 별도의 알고리즘으로 최종 학습을 수행하고 테스트셋을 기반으로 다시 최종 예측을 수행하는 방식 메타 모델: 개별 모델의 예측된 데이터셋을 다시 기반으로 하여 학습, 예측하는 방식 필요한 모델 2가지: 1. 개별적인 기반 모델 2. 최종 메타 모델 핵심은 >> 여러 개별 모델의 예측 데이터들을 스태킹 형태로 결합해 최종 메타 모델의 학습용 피처데이터, 테스트용 피처데이터를 만드는것 메타 모델용 학습데이터로 사용됨 ③ 학습된 개별 모델들은 원본 테스트데이터를 예측하여 예측값 생성, 이런 로직을 3번 반복하면서 예측값의 평균을 냄,..
캐글 신용카드 사기 검출 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud 이 데이터셋의 레이블 class 속성은 매우 불균형한 분포를 가짐 class는 0이 정상 거래, 1이 사기 거래 전체 데이터의 0.172%만이 사기 거래인 1임 언더 샘플링과 오버 샘플링의 이해 이상 레이블보다 정상 레이블 수가 매우 많이 때문에 일방적으로 정상 레이블로 치우친 학습을 수행하게돼서 이상 데이터 검출이 어려움 오버 샘플링(Oversampling) >> 더 많이 사용 적은 데이터셋을 증식시키는 것, 동일한 데이터를 단순히 증식시키면 과적합 위험이 있으므로 피처값을 약간만 변형시켜서 증식시킴 SMOTE: 적은 데이터셋의 개별 데이터들의 K최근접 이웃을 찾아서 해당 데이터..