군집분석

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (45) 가우시안 혼합 모델, GMM(Gaussian Mixture Model)

GMM(Gaussian Mixture Model), 가우시안 혼합 모델 GMM 개요 GMM 군집화는 군집화를 적용하고자 하는 데이터가 여러 개의 가우시안 분포를 가진 데이터 집합들이 섞여서 생성된 것이라는 가정하에 군집화를 수행하는 방식이다. 정규 분포라고도 알려진 가우시안 분포는 좌우 대칭형의 종 형태를 가진 연속 확률 함수이다. 정규 분포는 평균 μ을 중심으로 높은 데이터 분포도를 가지고 있으며, 좌우 표준편차 1에 전체 데이터의 68.27%, 표준편차 2에 전체 데이터의 95.45%를 가지고 있다. 평균이 0, 표준편차가 1인 정규 분포를 표준 정규 분포라고 한다. GMM은 데이터를 여러 개의 가우시안 분포가 섞인 것으로 간주한다. 섞인 데이터 분포에서 개별 유형의 가우시안 분포를 추출한다. 예를 ..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (42) 군집화, K-평균 알고리즘, K-Means Clustering

K-평균 알고리즘 이해 K-평균은 군집화에서 가장 일반적으로 사용되는 알고리즘이다. 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. *K-평균의 장점* 일반적인 군집화에서 가장 많이 활용되는 알고리즘이다. 알고리즘이 쉽고 간결하다. *K-평균의 단점* 거리 기반 알고리즘으로, 속성 개수가 매우 많을 경우 군집화 정확도가 떨어진다.(이를 위해 PCA 차원 축소를 적용하기도 함) 반복 수행시, 횟수가 많을 경우 수행 시간이 느려진다. 몇 개의 군집(cluster)을 선택해야 할지 가이드하기 어렵다. 사이킷런 KMeans 클래스 KMeans는 다음과 같은 초기화 파라미터를 가지고 있다. In [ ]: class sklearn.cluster.KMean..

얆생
'군집분석' 태그의 글 목록