로지스틱 회귀 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘이다 로지스틱이 선형 회귀와 다른 점은 학습을 통해 선형 함수의 최적선을 찾는 것이 아니라 시그모이드 함수 최적선을 찾고 반환값을 확률로 간주해 확률에 따라 분류를 결정하는 것 y = 1/(1+e − x) 시그모이드 함수는 x값이 아무리 커지거나 작아져도 y값은 항상 0과 1사이를 반환한다. LogisticRegression 클래스의 solver 파라미터에서는 Ibfgs, liblinear, newton-cg, sag, saga 값을 적용해서 최적화를 선택할 수 있다 Ibfgs: 사이킷런 0.22 버전부터 solver의 기본값, 메모리 공간 절약, CPU 코어 수가 많다면 최적화를 병렬로 수행 liblinear: 버전 0.21까지는 얘..
유전체 정보 품종 분류 AI 경진대회 https://dacon.io/competitions/official/236035/data In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings import random In [2]: pd.read_csv('/content/snp_info.csv') Out[2]: SNP_id name chrom cm pos 0 SNP_01 BTA-19852-no-rs 2 67.05460 42986890 1 SNP_02 ARS-USMARC-Parent-DQ647190-rs29013632 6 31.15670 13897068 2 SNP..
데이콘 Basic 범죄 유형 분류 AI 경진대회 배경: 범죄 관련 데이터를 분석하여 어떤 유형의 범죄가 발생할지 예측하고, 예측 결과를 바탕으로 범죄에 대한 대응을 빠르게 할 수 있도록 하기 위함 주제: 범죄 유형을 분류하는 AI 알고리즘 개발 사건 발생 장소 및 기후 데이터 분석을 통해 세 가지 범죄 유형을 분류하는 AI 모델을 개발 https://dacon.io/competitions/official/236109/overview/description 일부 데이터 설명 -- ID : 샘플 별 고유 id -- 월 : 사건 발생월 -- 요일 : 월요일 ~ 일요일 -- 시간 : 사건 발생 시각 -- 소관경찰서 : 사건 발생 구역의 담당 경찰서 -- 소관지역 : 사건 발생 구역 -- 사건발생거리 : 가장 가까..
GBM(Gradient Boosting Machine) 부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습-예측하면서 잘못 예측한 데이터에 가중치를 부여하고 오류를 개선해 나가면서 학습하는 방식 대표적으로 AdaBoost와 GBM이 있음 AdaBoost 에이다부스트 맨 왼쪽과 같이 +와 -로 된 피처 데이터셋이 있다면 step1은 첫 번째 약한 학습기가 분류 기준1으로 +와 -를 분류한 것, 동그라미+가 잘못 분류된 애들 step2에서 이 오류데이터에 가중치값 부여(0.3), 크기가 커진 + step3에서 두 번째 약한 학습기가 분류 기준2로 +와 -를 분류, 동그라미-는 잘못 분류된 애들 step4에서 이 오류데이터에 더 큰 가중치 부여(0.5), 크기가 커진 - step5에서 세 번째 약한 학..
결정 트리 과적합 Overfitting 결정 트리가 어떻게 학습데이터를 분할해 예측을 수행하는지와 이로 인한 과적합 문제를 시각화하여 알아보자 사이킷런이 제공하는 make_classificaition() 함수를 이용해서 임의의 데이터셋 만들기 make_classification 호출 시 반환되는 객체는 피처 데이터셋과 클래스 레이블 데이터셋임 2개의 피처가 3가지 유형의 클래스값을 가지는 데이터셋 만들어보자 In [ ]: from sklearn.datasets import make_classification import matplotlib.pyplot as plt plt.title('3 Class values with 2 Features Sample data creation') #2차원 시각화를 위해서 ..