stacking

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (37) 회귀 실습 - 캐글 주택 가격: 고급 회귀 기법

회귀 실습 - 캐글 주택 가격: 고급 회귀 기법 본 경연에서는 RMSE로 성능을 평가하되 예측값과 실제값의 로그 변환을 기반으로 수행한다고 했으니 결론적으로는 RMSLE와 동일한 방식이다 가격이 비싼 주택일수록 예측 결과 오류가 전체 오류에 미치는 비중이 높으므로 이를 상쇄하기 위해 로그 변환된 RMSLE를 이용하자 데이터 전처리 In [1]: import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt import warnings warnings.filterwarnings('ignore') house_df_org = pd.read_csv('/content/house_price.csv') house_..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (29) Stacking 스태킹 모델

스태킹 앙상블 스태킹이 배깅, 부스팅과 다른 가장 큰 차이점은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것 즉, 결과데이터셋을 최종 메타 데이터셋으로 만들어 별도의 알고리즘으로 최종 학습을 수행하고 테스트셋을 기반으로 다시 최종 예측을 수행하는 방식 메타 모델: 개별 모델의 예측된 데이터셋을 다시 기반으로 하여 학습, 예측하는 방식 필요한 모델 2가지: 1. 개별적인 기반 모델 2. 최종 메타 모델 핵심은 >> 여러 개별 모델의 예측 데이터들을 스태킹 형태로 결합해 최종 메타 모델의 학습용 피처데이터, 테스트용 피처데이터를 만드는것 메타 모델용 학습데이터로 사용됨 ③ 학습된 개별 모델들은 원본 테스트데이터를 예측하여 예측값 생성, 이런 로직을 3번 반복하면서 예측값의 평균을 냄,..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (19) 앙상블 기법 Ensemble, 위스콘신 유방암 데이터 - VotingClassifier(), load_breast_cancer()

앙상블 학습 앙상블 기법: 여러 개의 분류기(classifier)를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 대부분의 정형데이터 분류 시에는 앙상블이 뛰어난 성능을 나타내고 있음 대표적으로 랜덤포레스트와 그라디언트 부스팅 알고리즘이 있음 최신 기법으로는 XGBoost(eXtra Gradiant Boost)와 LightGBM(Light Gradiant Boost), Stacking이 주목 받음 보팅(Voting): 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합하는 것 배깅(Bagging): 각각의 분류기가 모두 같은 유형의 알고리즘 기반이지만, 데이터 샘플링을 서로 다르게 가져가면서 학습을 수행하는 것 >> 랜덤 포레스트 붓스트래핑(bootstrapping): 개별 cl..

얆생
'stacking' 태그의 글 목록