회귀 실습 - 자전거 대여 수요 예측 https://www.kaggle.com/competitions/bike-sharing-demand/data 데이터 설명 datetime - hourly date + timestamp season - 1 = spring, 2 = summer, 3 = fall, 4 = winter holiday - whether the day is considered a holiday workingday - whether the day is neither a weekend nor holiday weather 1: Clear, Few clouds, Partly cloudy 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist ..
캐글 신용카드 사기 검출 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud 이 데이터셋의 레이블 class 속성은 매우 불균형한 분포를 가짐 class는 0이 정상 거래, 1이 사기 거래 전체 데이터의 0.172%만이 사기 거래인 1임 언더 샘플링과 오버 샘플링의 이해 이상 레이블보다 정상 레이블 수가 매우 많이 때문에 일방적으로 정상 레이블로 치우친 학습을 수행하게돼서 이상 데이터 검출이 어려움 오버 샘플링(Oversampling) >> 더 많이 사용 적은 데이터셋을 증식시키는 것, 동일한 데이터를 단순히 증식시키면 과적합 위험이 있으므로 피처값을 약간만 변형시켜서 증식시킴 SMOTE: 적은 데이터셋의 개별 데이터들의 K최근접 이웃을 찾아서 해당 데이터..
Kaggle 산탄데르 고객 만족 예측(Santander Customer Satisfaction) XGBoost와 LightGBM을 활용해서 예측해보자 산탄데르 은행이 주최한 경연이라 피처 이름은 익명 처리되어있음 레이블값이 1이면 불만 가진 고객, 0이면 만족한 고객 모델 성능 평가는 roc-auc로 평가 https://www.kaggle.com/competitions/santander-customer-satisfaction/data 데이터 전처리 In [3]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') cust_df = pd.rea..