Classification

Data Science/Dacon

[분류] 유전체 정보 품종 분류 AI 경진대회 (2) - AutoML을 이용한 모델링 3가지

1. pycaret https://github.com/kimseojin0-0/project/blob/main/%EC%9C%A0%EC%A0%84%EC%B2%B4_%EC%A0%95%EB%B3%B4_%ED%92%88%EC%A2%85_%EB%B6%84%EB%A5%98_AutoML_pycaret.ipynb GitHub - kimseojin0-0/project: 데이콘, 캐글, 데이터 공모전, 해커톤 가리지 않고 프로젝트 정리하는 공 데이콘, 캐글, 데이터 공모전, 해커톤 가리지 않고 프로젝트 정리하는 공간. Contribute to kimseojin0-0/project development by creating an account on GitHub. github.com 2. h2o https://github.co..

Data Science/Dacon

[분류] 유전체 정보 품종 분류 AI 경진대회 (1) - 간단한 EDA

유전체 정보 품종 분류 AI 경진대회 https://dacon.io/competitions/official/236035/data In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings import random In [2]: pd.read_csv('/content/snp_info.csv') Out[2]: SNP_id name chrom cm pos 0 SNP_01 BTA-19852-no-rs 2 67.05460 42986890 1 SNP_02 ARS-USMARC-Parent-DQ647190-rs29013632 6 31.15670 13897068 2 SNP..

Data Science/Dacon

[분류] 데이콘 범죄 유형 분류 대회 (1) - EDA

데이콘 Basic 범죄 유형 분류 AI 경진대회 배경: 범죄 관련 데이터를 분석하여 어떤 유형의 범죄가 발생할지 예측하고, 예측 결과를 바탕으로 범죄에 대한 대응을 빠르게 할 수 있도록 하기 위함 주제: 범죄 유형을 분류하는 AI 알고리즘 개발 사건 발생 장소 및 기후 데이터 분석을 통해 세 가지 범죄 유형을 분류하는 AI 모델을 개발 https://dacon.io/competitions/official/236109/overview/description 일부 데이터 설명 -- ID : 샘플 별 고유 id -- 월 : 사건 발생월 -- 요일 : 월요일 ~ 일요일 -- 시간 : 사건 발생 시각 -- 소관경찰서 : 사건 발생 구역의 담당 경찰서 -- 소관지역 : 사건 발생 구역 -- 사건발생거리 : 가장 가까..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (29) Stacking 스태킹 모델

스태킹 앙상블 스태킹이 배깅, 부스팅과 다른 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것 즉, 결과데이터셋을 최종 메타 데이터셋으로 만들어 별도의 알고리즘으로 최종 학습을 수행하고 테스트셋을 기반으로 다시 최종 예측을 수행하는 방식 메타 모델: 개별 모델의 예측된 데이터셋을 다시 기반으로 하여 학습, 예측하는 방식 필요한 모델 2가지: 1. 개별적인 기반 모델 2. 최종 메타 모델 핵심은 >> 여러 개별 모델의 예측 데이터들을 스태킹 형태로 결합해 최종 메타 모델의 학습용 피처데이터, 테스트용 피처데이터를 만드는것 메타 모델용 학습데이터로 사용됨 ③ 학습된 개별 모델들은 원본 테스트데이터를 예측하여 예측값 생성, 이런 로직을 3번 반복하면서 예측값의 평균을 냄,..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (28) Kaggle 신용카드 사기 거래 탐지, Credit Card Fraud Classification

캐글 신용카드 사기 검출 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud 이 데이터셋의 레이블 class 속성은 매우 불균형한 분포를 가짐 class는 0이 정상 거래, 1이 사기 거래 전체 데이터의 0.172%만이 사기 거래인 1임 언더 샘플링과 오버 샘플링의 이해 이상 레이블보다 정상 레이블 수가 매우 많이 때문에 일방적으로 정상 레이블로 치우친 학습을 수행하게돼서 이상 데이터 검출이 어려움 오버 샘플링(Oversampling) >> 더 많이 사용 적은 데이터셋을 증식시키는 것, 동일한 데이터를 단순히 증식시키면 과적합 위험이 있으므로 피처값을 약간만 변형시켜서 증식시킴 SMOTE: 적은 데이터셋의 개별 데이터들의 K최근접 이웃을 찾아서 해당 데이터..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (27) Kaggle 산탄데르 고객 만족 예측(Santander Customer Satisfaction)

Kaggle 산탄데르 고객 만족 예측(Santander Customer Satisfaction) XGBoost와 LightGBM을 활용해서 예측해보자 산탄데르 은행이 주최한 경연이라 피처 이름은 익명 처리되어있음 레이블값이 1이면 불만 가진 고객, 0이면 만족한 고객 모델 성능 평가는 roc-auc로 평가 https://www.kaggle.com/competitions/santander-customer-satisfaction/data 데이터 전처리 In [3]: import numpy as np import pandas as pd import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') cust_df = pd.rea..

얆생
'Classification' 태그의 글 목록