ML

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (46) DBSCAN(밀도 기반 클러스터링), make_circles

DBSCAN(Density Based Spatial Clustering of Applications with Noise) DBSCAN 개요 DBSCAN은 밀도 기반 군집화의 대표적인 알고리즘이다. DBSCAN은 간단하고 직관적인 알고리즘으로 되어있지만 특정 공간 내에 데이터 밀도 차이에 기반하여 데이터의 분포가 기하학적으로 복잡한 데이터셋에도 효과적인 군집화가 가능하다. DBSCAN를 구성하는 가장 중요한 두 가지 파라미터: 입실론 주변 영역(epsilon): 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역 최소 데이터 개수(min points): 개별 데이터의 입실론 주변 영역에 포함되는 타 데이터의 개수 입실론 주변 영역 내에 포함되는 최소 데이터 개수를 충족시키는가 아닌가에 따라 데이터 포..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (43) 군집 평가(Cluster Evaluation), 실루엣 계수(Silhouette Score)

군집 평가(Cluster Evaluation) 비지도학습의 특성상 어떠한 지표라도 정확하게 성능을 평가하기는 어렵다. 군집화의 성능을 평가하는 대표적인 방법으로 실루엣 분석을 이용한다. 실루엣 분석의 개요 실루엣 분석은 각 군집 간의 거리가 얼마나 효율적으로 분리되어 있는지를 나타낸다. → 효율적으로 잘 분리됐다는 것은 다른 군집과의 거리는 떨어져있고 군집 내에서는 서로 가깝게 잘 뭉쳐져있다는 의미이다. 실루엣 분석은 실루엣 계수(Silhouette coeficient)를 기반으로 한다. 개별 데이터가 가지는 실루엣 계수는 해당 데이터가 같은 군집 내의 데이터와 얼마나 가깝게 군집화돼 있고, 다른 군집과는 얼마나 멀리 분리돼있는지 나타내는 지표이다. 실루엣 계수식 a(i): 해당 데이터 포인트와 같은 군..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (41) 차원 축소, NMF(Non-Negative Matrix Factorization)

NMF(Non-Negative Matrix Factorization) NMF 개요 NMF는 TruncatedSVD와 같이 낮은 Rank를 통한 행렬 근사 방식의 변형이다. NMF는 원본 행렬 내의 모든 원소값이 양수라는게 보장되면 더 간단하게 두 개의 기반 양수 행렬로 분해될 수 있는 기법이다. NMF는 SVD와 유사하게 차원 축소를 통한 잠재 요소 도출로 이미지 변환 및 압축, 텍스트의 토픽 도출 등의 영역에서 사용되고 있다. In [1]: from sklearn.datasets import load_iris from sklearn.decomposition import NMF import matplotlib.pyplot as plt iris = load_iris() iris_ftrs = iris.dat..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (38) 차원 축소, PCA(Principal Component Analysis)

차원 축소 개요 차원 축소는 매우 많은 피처로 구성된 다차원 데이터셋의 차원을 축소해 새로운 차원의 데이터셋을 생성하는 것 피처가 수백 개 이상이면 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다 또, 피처가 많으면 피처들끼리 상관관계가 높을 수도 있다 → 다중공선성 문제 차원을 축소하여 피처 개수를 줄이면 직관적으로 데이터를 해석할 수 있다 피처 선택: 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것 피처 추출: 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것 새롭게 추출된 피처는 기존 피처와는 완전히 다른 값이 된다 피처를 함축적으로 잘 설명할 수 있는 또 다른 공간으로 매핑하여 추출함 기존 피처가 전혀 인지하기 어..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (36) 회귀 실습 - kaggle 자전거 대여 수요 예측하기

회귀 실습 - 자전거 대여 수요 예측 https://www.kaggle.com/competitions/bike-sharing-demand/data 데이터 설명 datetime - hourly date + timestamp season - 1 = spring, 2 = summer, 3 = fall, 4 = winter holiday - whether the day is considered a holiday workingday - whether the day is neither a weekend nor holiday weather 1: Clear, Few clouds, Partly cloudy 2: Mist + Cloudy, Mist + Broken clouds, Mist + Few clouds, Mist ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (34) 로지스틱 회귀 LogisticRegression

로지스틱 회귀 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘이다 로지스틱이 선형 회귀와 다른 점은 학습을 통해 선형 함수의 최적선을 찾는 것이 아니라 시그모이드 함수 최적선을 찾고 반환값을 확률로 간주해 확률에 따라 분류를 결정하는 것 y = 1/(1+e − x) 시그모이드 함수는 x값이 아무리 커지거나 작아져도 y값은 항상 0과 1사이를 반환한다. LogisticRegression 클래스의 solver 파라미터에서는 Ibfgs, liblinear, newton-cg, sag, saga 값을 적용해서 최적화를 선택할 수 있다 Ibfgs: 사이킷런 0.22 버전부터 solver의 기본값, 메모리 공간 절약, CPU 코어 수가 많다면 최적화를 병렬로 수행 liblinear: 버전 0.21까지는 얘..

얆생
'ML' 태그의 글 목록