logisticregression

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (34) 로지스틱 회귀 LogisticRegression

로지스틱 회귀 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘이다 로지스틱이 선형 회귀와 다른 점은 학습을 통해 선형 함수의 최적선을 찾는 것이 아니라 시그모이드 함수 최적선을 찾고 반환값을 확률로 간주해 확률에 따라 분류를 결정하는 것 y = 1/(1+e − x) 시그모이드 함수는 x값이 아무리 커지거나 작아져도 y값은 항상 0과 1사이를 반환한다. LogisticRegression 클래스의 solver 파라미터에서는 Ibfgs, liblinear, newton-cg, sag, saga 값을 적용해서 최적화를 선택할 수 있다 Ibfgs: 사이킷런 0.22 버전부터 solver의 기본값, 메모리 공간 절약, CPU 코어 수가 많다면 최적화를 병렬로 수행 liblinear: 버전 0.21까지는 얘..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (28) Kaggle 신용카드 사기 거래 탐지, Credit Card Fraud Classification

캐글 신용카드 사기 검출 https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud 이 데이터셋의 레이블 class 속성은 매우 불균형한 분포를 가짐 class는 0이 정상 거래, 1이 사기 거래 전체 데이터의 0.172%만이 사기 거래인 1임 언더 샘플링과 오버 샘플링의 이해 이상 레이블보다 정상 레이블 수가 매우 많이 때문에 일방적으로 정상 레이블로 치우친 학습을 수행하게돼서 이상 데이터 검출이 어려움 오버 샘플링(Oversampling) >> 더 많이 사용 적은 데이터셋을 증식시키는 것, 동일한 데이터를 단순히 증식시키면 과적합 위험이 있으므로 피처값을 약간만 변형시켜서 증식시킴 SMOTE: 적은 데이터셋의 개별 데이터들의 K최근접 이웃을 찾아서 해당 데이터..

얆생
'logisticregression' 태그의 글 목록