군집화 실습 - 고객 세그먼테이션(Customer Segmentation) 고객 세그먼테이션이란? 다양한 기준으로 고객을 분류하는 기법을 지칭한다. CRM(고객 관계 관리)나 마케팅의 중요 기반 요소다. 고객 분류가 사용되는 대부분의 비즈니스가 상품 판매에 중점을 두고 있기 때문에 어떤 상품을 얼마나 많은 비용을 써서 얼마나 자주 사용하는가에 기반한 정보로 분류하는 것이 보통이다. 고객 세그먼테이션의 주요 목표는 타겟 마케팅이다. 고객을 여러 특성에 맞게 세분화해서 그 유형에 따라 맞춤형 마케팅이나 서비스를 제공하는 것. 어떤 요소를 기반으로 군집화할 것인가를 결정하는 것이 중요한데, 이번엔 기본적 고객 분석 요소안 RFM 기법을 이용해보자 Recency: 가장 최근 상품 구입일에서 오늘까지의 기간 Fr..
GMM(Gaussian Mixture Model), 가우시안 혼합 모델 GMM 개요 GMM 군집화는 군집화를 적용하고자 하는 데이터가 여러 개의 가우시안 분포를 가진 데이터 집합들이 섞여서 생성된 것이라는 가정하에 군집화를 수행하는 방식이다. 정규 분포라고도 알려진 가우시안 분포는 좌우 대칭형의 종 형태를 가진 연속 확률 함수이다. 정규 분포는 평균 μ을 중심으로 높은 데이터 분포도를 가지고 있으며, 좌우 표준편차 1에 전체 데이터의 68.27%, 표준편차 2에 전체 데이터의 95.45%를 가지고 있다. 평균이 0, 표준편차가 1인 정규 분포를 표준 정규 분포라고 한다. GMM은 데이터를 여러 개의 가우시안 분포가 섞인 것으로 간주한다. 섞인 데이터 분포에서 개별 유형의 가우시안 분포를 추출한다. 예를 ..
K-평균 알고리즘 이해 K-평균은 군집화에서 가장 일반적으로 사용되는 알고리즘이다. 군집 중심점이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. *K-평균의 장점* 일반적인 군집화에서 가장 많이 활용되는 알고리즘이다. 알고리즘이 쉽고 간결하다. *K-평균의 단점* 거리 기반 알고리즘으로, 속성 개수가 매우 많을 경우 군집화 정확도가 떨어진다.(이를 위해 PCA 차원 축소를 적용하기도 함) 반복 수행시, 횟수가 많을 경우 수행 시간이 느려진다. 몇 개의 군집(cluster)을 선택해야 할지 가이드하기 어렵다. 사이킷런 KMeans 클래스 KMeans는 다음과 같은 초기화 파라미터를 가지고 있다. In [ ]: class sklearn.cluster.KMean..