load_iris

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (46) DBSCAN(밀도 기반 클러스터링), make_circles

DBSCAN(Density Based Spatial Clustering of Applications with Noise) DBSCAN 개요 DBSCAN은 밀도 기반 군집화의 대표적인 알고리즘이다. DBSCAN은 간단하고 직관적인 알고리즘으로 되어있지만 특정 공간 내에 데이터 밀도 차이에 기반하여 데이터의 분포가 기하학적으로 복잡한 데이터셋에도 효과적인 군집화가 가능하다. DBSCAN를 구성하는 가장 중요한 두 가지 파라미터: 입실론 주변 영역(epsilon): 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역 최소 데이터 개수(min points): 개별 데이터의 입실론 주변 영역에 포함되는 타 데이터의 개수 입실론 주변 영역 내에 포함되는 최소 데이터 개수를 충족시키는가 아닌가에 따라 데이터 포..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (45) 가우시안 혼합 모델, GMM(Gaussian Mixture Model)

GMM(Gaussian Mixture Model), 가우시안 혼합 모델 GMM 개요 GMM 군집화는 군집화를 적용하고자 하는 데이터가 여러 개의 가우시안 분포를 가진 데이터 집합들이 섞여서 생성된 것이라는 가정하에 군집화를 수행하는 방식이다. 정규 분포라고도 알려진 가우시안 분포는 좌우 대칭형의 종 형태를 가진 연속 확률 함수이다. 정규 분포는 평균 μ을 중심으로 높은 데이터 분포도를 가지고 있으며, 좌우 표준편차 1에 전체 데이터의 68.27%, 표준편차 2에 전체 데이터의 95.45%를 가지고 있다. 평균이 0, 표준편차가 1인 정규 분포를 표준 정규 분포라고 한다. GMM은 데이터를 여러 개의 가우시안 분포가 섞인 것으로 간주한다. 섞인 데이터 분포에서 개별 유형의 가우시안 분포를 추출한다. 예를 ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (38) 차원 축소, PCA(Principal Component Analysis)

차원 축소 개요 차원 축소는 매우 많은 피처로 구성된 다차원 데이터셋의 차원을 축소해 새로운 차원의 데이터셋을 생성하는 것 피처가 수백 개 이상이면 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어진다 또, 피처가 많으면 피처들끼리 상관관계가 높을 수도 있다 → 다중공선성 문제 차원을 축소하여 피처 개수를 줄이면 직관적으로 데이터를 해석할 수 있다 피처 선택: 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것 피처 추출: 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것 새롭게 추출된 피처는 기존 피처와는 완전히 다른 값이 된다 피처를 함축적으로 잘 설명할 수 있는 또 다른 공간으로 매핑하여 추출함 기존 피처가 전혀 인지하기 어..

얆생
'load_iris' 태그의 글 목록