ML

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (31) LinearRegression을 활용한 보스턴 주택 가격 회귀 분석

사이킷런 LinearRegression을 활용한 보스턴 주택 가격 예측 LinearRegression 클래스 - Ordinary Least Squares LinearRegression는 RSS를 최소화해 OLS(Ordinary Least Sqaures) 추정 방식으로 구현한 클래스이다. 회귀 계수(Coefficients)인 W를 coef_ 속성에 저장한다 fit_intercept: default=True, 절편값을 계산할건지 말지를 지정함. False면 0으로 지정 normalize: default=False, 회귀 수행 전에 입력데이터셋을 정규화함. fit_intersept가 False인 경우에 이 파라미터는 무시됨 coef_: fit을 수행했을 때, 회귀 계수가 배열 형태로 저장하는 속성. shape..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (30) 회귀 개요, 경사하강법(Regression, Gradient Descent)

회귀 Regression 데이터값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계 기법 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링 종류 일반 선형 회귀: 실제값과 예측값의 차이(오류의 제곱값)를 최소화하는 직선형 회귀선을 최적화하는 방식, 규제를 적용하지 않음 릿지 회귀: 선형 회귀에 L2규제를 추가한 모델(회귀계수값을 작게 만드는) 라쏘 회귀: 선형 회귀에 L1규제를 적용한 방식(피처가 선택되지 않게 만드는) 엘라스틱넷 회귀: 선형 회귀에 L1, L2규제를 함께 결합한 모델(L1으로 피처 개수를 줄임과 동시에 L2로 계수값을 조절) 로지스틱 회귀: 회귀라는 이름이 붙었지만, 강력한 분류 알고리즘. 이진 분류뿐만 아니라 텍스트 분류같은 영역에서도 뛰어남 RSS, 오차제곱합을..

Data Science/Dacon

[회귀] 감귤 착과량 예측 AI 경진대회

감귤 착과량 예측 AI 경진대회 https://dacon.io/competitions/official/236038/overview/description ID : 과수나무 고유 ID 착과량(int) : 실제 감귤 착과량 (Target) 나무 생육 상태 Features (5개): 수고(m), 수관폭1(min), 수관폭2(max), 수관폭평균(수관폭1과 수관폭2의 평균) (데이터 기입은 cm 단위) 새순 Features (89개): 2022년 09월 01일 ~ 2022년 11월 28일에 일별 측정된 새순 데이터 엽록소 Features (89개): 2022년 09월 01일 ~ 2022년 11월 28일에 일별 측정된 엽록소 데이터 목적: 감귤나무의 나무 생육 상태, 엽록소 및 새순 정보로부터 감귤 착과량을 회귀 ..

Data Science/Dacon

[분류] 유전체 정보 품종 분류 AI 경진대회 (2) - AutoML을 이용한 모델링 3가지

1. pycaret https://github.com/kimseojin0-0/project/blob/main/%EC%9C%A0%EC%A0%84%EC%B2%B4_%EC%A0%95%EB%B3%B4_%ED%92%88%EC%A2%85_%EB%B6%84%EB%A5%98_AutoML_pycaret.ipynb GitHub - kimseojin0-0/project: 데이콘, 캐글, 데이터 공모전, 해커톤 가리지 않고 프로젝트 정리하는 공 데이콘, 캐글, 데이터 공모전, 해커톤 가리지 않고 프로젝트 정리하는 공간. Contribute to kimseojin0-0/project development by creating an account on GitHub. github.com 2. h2o https://github.co..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (29) Stacking 스태킹 모델

스태킹 앙상블 스태킹이 배깅, 부스팅과 다른 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것 즉, 결과데이터셋을 최종 메타 데이터셋으로 만들어 별도의 알고리즘으로 최종 학습을 수행하고 테스트셋을 기반으로 다시 최종 예측을 수행하는 방식 메타 모델: 개별 모델의 예측된 데이터셋을 다시 기반으로 하여 학습, 예측하는 방식 필요한 모델 2가지: 1. 개별적인 기반 모델 2. 최종 메타 모델 핵심은 >> 여러 개별 모델의 예측 데이터들을 스태킹 형태로 결합해 최종 메타 모델의 학습용 피처데이터, 테스트용 피처데이터를 만드는것 메타 모델용 학습데이터로 사용됨 ③ 학습된 개별 모델들은 원본 테스트데이터를 예측하여 예측값 생성, 이런 로직을 3번 반복하면서 예측값의 평균을 냄,..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (28) Kaggle 신용카드 사기 거래 탐지, Credit Card Fraud Classification

캐글 신용카드 사기 검출 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud 이 데이터셋의 레이블 class 속성은 매우 불균형한 분포를 가짐 class는 0이 정상 거래, 1이 사기 거래 전체 데이터의 0.172%만이 사기 거래인 1임 언더 샘플링과 오버 샘플링의 이해 이상 레이블보다 정상 레이블 수가 매우 많이 때문에 일방적으로 정상 레이블로 치우친 학습을 수행하게돼서 이상 데이터 검출이 어려움 오버 샘플링(Oversampling) >> 더 많이 사용 적은 데이터셋을 증식시키는 것, 동일한 데이터를 단순히 증식시키면 과적합 위험이 있으므로 피처값을 약간만 변형시켜서 증식시킴 SMOTE: 적은 데이터셋의 개별 데이터들의 K최근접 이웃을 찾아서 해당 데이터..

얆생
'ML' 태그의 글 목록 (2 Page)