Clustering

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (47) 군집화 실습 - 고객 세그먼테이션(Customer Segmentation)

군집화 실습 - 고객 세그먼테이션(Customer Segmentation) 고객 세그먼테이션이란? 다양한 기준으로 고객을 분류하는 기법을 지칭한다. CRM(고객 관계 관리)나 마케팅의 중요 기반 요소다. 고객 분류가 사용되는 대부분의 비즈니스가 상품 판매에 중점을 두고 있기 때문에 어떤 상품을 얼마나 많은 비용을 써서 얼마나 자주 사용하는가에 기반한 정보로 분류하는 것이 보통이다. 고객 세그먼테이션의 주요 목표는 타겟 마케팅이다. 고객을 여러 특성에 맞게 세분화해서 그 유형에 따라 맞춤형 마케팅이나 서비스를 제공하는 것. 어떤 요소를 기반으로 군집화할 것인가를 결정하는 것이 중요한데, 이번엔 기본적 고객 분석 요소안 RFM 기법을 이용해보자 Recency: 가장 최근 상품 구입일에서 오늘까지의 기간 Fr..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (46) DBSCAN(밀도 기반 클러스터링), make_circles

DBSCAN(Density Based Spatial Clustering of Applications with Noise) DBSCAN 개요 DBSCAN은 밀도 기반 군집화의 대표적인 알고리즘이다. DBSCAN은 간단하고 직관적인 알고리즘으로 되어있지만 특정 공간 내에 데이터 밀도 차이에 기반하여 데이터의 분포가 기하학적으로 복잡한 데이터셋에도 효과적인 군집화가 가능하다. DBSCAN를 구성하는 가장 중요한 두 가지 파라미터: 입실론 주변 영역(epsilon): 개별 데이터를 중심으로 입실론 반경을 가지는 원형의 영역 최소 데이터 개수(min points): 개별 데이터의 입실론 주변 영역에 포함되는 타 데이터의 개수 입실론 주변 영역 내에 포함되는 최소 데이터 개수를 충족시키는가 아닌가에 따라 데이터 포..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (43) 군집 평가(Cluster Evaluation), 실루엣 계수(Silhouette Score)

군집 평가(Cluster Evaluation) 비지도학습의 특성상 어떠한 지표라도 정확하게 성능을 평가하기는 어렵다. 군집화의 성능을 평가하는 대표적인 방법으로 실루엣 분석을 이용한다. 실루엣 분석의 개요 실루엣 분석은 각 군집 간의 거리가 얼마나 효율적으로 분리되어 있는지를 나타낸다. → 효율적으로 잘 분리됐다는 것은 다른 군집과의 거리는 떨어져있고 군집 내에서는 서로 가깝게 잘 뭉쳐져있다는 의미이다. 실루엣 분석은 실루엣 계수(Silhouette coeficient)를 기반으로 한다. 개별 데이터가 가지는 실루엣 계수는 해당 데이터가 같은 군집 내의 데이터와 얼마나 가깝게 군집화돼 있고, 다른 군집과는 얼마나 멀리 분리돼있는지 나타내는 지표이다. 실루엣 계수식 a(i): 해당 데이터 포인트와 같은 군..

Data Science/파이썬 머신러닝 완벽 가이드

[sklearn] (42) 군집화, K-평균 알고리즘, K-Means Clustering

K-평균 알고리즘 이해 K-평균은 군집화에서 가장 일반적으로 사용되는 알고리즘이다. 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. *K-평균의 장점* 일반적인 군집화에서 가장 많이 활용되는 알고리즘이다. 알고리즘이 쉽고 간결하다. *K-평균의 단점* 거리 기반 알고리즘으로, 속성 개수가 매우 많을 경우 군집화 정확도가 떨어진다.(이를 위해 PCA 차원 축소를 적용하기도 함) 반복 수행시, 횟수가 많을 경우 수행 시간이 느려진다. 몇 개의 군집(cluster)을 선택해야 할지 가이드하기 어렵다. 사이킷런 KMeans 클래스 KMeans는 다음과 같은 초기화 파라미터를 가지고 있다. In [ ]: class sklearn.cluster.KMean..

얆생
'Clustering' 태그의 글 목록