5.2.2 K均值聚类算法

K-Means算法是一种典型的基于距离的非层次聚类算法。在最小化误差函数的基础上,将数据分成预定数量的类K,以距离作为相似性评价指标,即两个对象之间的距离越近,其相似性越大。

算法过程

连续属性

在计算距离之前,需要标准化每个属性值的零均值。在K-Means聚类算法中,通常需要度量样本之间、样本与聚类之间以及聚类之间的距离。

零均值归一化

也称标准差标准化,处理后数据的平均值为0,标准差为1。

转换公式:目前最常用的数据标准化方法

在实践中,为了得到更好的结果,我们通常会选择不同的初始聚类中心,并多次运行K-Means算法。

所有对象赋值后,重新计算K个聚类的中心时,对于连续数据,聚类中心取该聚类的平均值,但当样本的某些属性为分类变量时,平均值可能无法定义,因此可以使用K- mode方法。

误差拉平法和SSE(误差平方和)被用作衡量聚类质量的目标函数。对于两个不同的聚类结果,选择误差平方和较小的分类结果。

摘要

分组特征1: R区间比较大,主要集中在30 80天;消费次数集中在0 15次;消费金额为:0 ~ 2000;

集群2的特点:R间隔相对较小,主要集中在0-30天;消费次数集中在0 10次;消费金额为:0 ~ 1800;

集群3的特点:R间隔相对较小,主要集中在0-30天;消费次数集中在10 25次;消费金额为:500 ~ 2000;

对比分析

第三组是高消费高价值组,时间间隔短,消费次数多,消费金额大。

聚类2的时间间隔、消费次数、消费金额中等,代表一般价值客户。

时间间隔长,消费次数少,消费金额不是特别高,价值不高的1群客户。