Regression

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (33) 규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷 회귀

규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷 규제 선형 모델 선형 모델의 과적합을 방지하기 위해서 비용 함수는 RSS를 최소화하는 방법과 회귀 계수값이 커지지 않도록 하는 방법이 서로 균형을 이뤄야한다. alpha는 학습 데이터 적합 정도와 회귀 계수값의 크기 제어를 수행하는 튜닝 파라미터 alpha가 RSS(W)+alpha||W||를 최소화는 W벡터를 찾는 것일 때, alpha가 어떤 역할을 할까? alpha가 0 또는 매우 작은 값이라면 비용 함수식은 기존과 동일할 것이다. alpha가 무한대 또는 매우 큰 값이라면 비용 함수식은 RSS(W)에 비해 alpha*~ 값이 너무 커지므로 W값을 매우 작게 만들어야 cost가 최소화될 수 있을 것이다. 즉, alpha값을 크게 하면 비용 함수는 W값을 작게..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (30) 회귀 개요, 경사하강법(Regression, Gradient Descent)

회귀 Regression 데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계 기법 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 종류 일반 선형 회귀: 실제값과 예측값의 차이(오류의 제곱값)를 최소화하는 직선형 회귀선을 최적화하는 방식, 규제를 적용하지 않음 릿지 회귀: 선형 회귀에 L2규제를 추가한 모델(회귀계수값을 작게 만드는) 라쏘 회귀: 선형 회귀에 L1규제를 적용한 방식(피처가 선택되지 않게 만드는) 엘라스틱넷 회귀: 선형 회귀에 L1, L2규제를 함께 결합한 모델(L1으로 피처 개수를 줄임과 동시에 L2로 계수값을 조절) 로지스틱 회귀: 회귀라는 이름이 붙었지만, 강력한 분류 알고리즘. 이진 분류뿐만 아니라 텍스트 분류같은 영역에서도 뛰어남 RSS, 오차제곱합을..

Data Science/Dacon

[회귀] 감귤 착과량 예측 AI 경진대회

감귤 착과량 예측 AI 경진대회 https://dacon.io/competitions/official/236038/overview/description ID : 과수나무 고유 ID 착과량(int) : 실제 감귤 착과량 (Target) 나무 생육 상태 Features (5개): 수고(m), 수관폭1(min), 수관폭2(max), 수관폭평균(수관폭1과 수관폭2의 평균) (데이터 기입은 cm 단위) 새순 Features (89개): 2022년 09월 01일 ~ 2022년 11월 28일에 일별 측정된 새순 데이터 엽록소 Features (89개): 2022년 09월 01일 ~ 2022년 11월 28일에 일별 측정된 엽록소 데이터 목적: 감귤나무의 나무 생육 상태, 엽록소 및 새순 정보로부터 감귤 착과량을 회귀 ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (28) Kaggle 신용카드 사기 거래 탐지, Credit Card Fraud Classification

캐글 신용카드 사기 검출 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud 이 데이터셋의 레이블 class 속성은 매우 불균형한 분포를 가짐 class는 0이 정상 거래, 1이 사기 거래 전체 데이터의 0.172%만이 사기 거래인 1임 언더 샘플링과 오버 샘플링의 이해 이상 레이블보다 정상 레이블 수가 매우 많이 때문에 일방적으로 정상 레이블로 치우친 학습을 수행하게돼서 이상 데이터 검출이 어려움 오버 샘플링(Oversampling) >> 더 많이 사용 적은 데이터셋을 증식시키는 것, 동일한 데이터를 단순히 증식시키면 과적합 위험이 있으므로 피처값을 약간만 변형시켜서 증식시킴 SMOTE: 적은 데이터셋의 개별 데이터들의 K최근접 이웃을 찾아서 해당 데이터..

Data Science/파이썬 머신러닝 완벽 가이드

[Dacon] 보스턴 집값 예측

https://dacon.io/competitions/open/236065/overview/description 보스턴 집값 예측 경진대회 - DACON 분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다. dacon.io 데이콘에서 교육용 연습대회에 참가해보았다. 보스턴 집값 경진대회¶ https://dacon.io/competitions/open/236065/overview/description CRIM: 도시별 1인당 범죄율 ZN: 25,000 피트를 초과하는 주거용 토지의 비율 NDUS: 비상업 면적의 비율 CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX: 일산화질소 농도 RM: 주택당 평균 방의 개수 AGE: 1940년 이전에 건축된..

얆생
'Regression' 태그의 글 목록 (2 Page)