5.2.2 K均值聚类算法

K-Means算法是一种典型的基于距离的非层次聚类算法。在最小化误差函数的基础上，将数据分成预定数量的类K，以距离作为相似性评价指标，即两个对象之间的距离越近，其相似性越大。

算法过程

连续属性

在计算距离之前，需要标准化每个属性值的零均值。在K-Means聚类算法中，通常需要度量样本之间、样本与聚类之间以及聚类之间的距离。

零均值归一化

也称标准差标准化，处理后数据的平均值为0，标准差为1。

转换公式:目前最常用的数据标准化方法

在实践中，为了得到更好的结果，我们通常会选择不同的初始聚类中心，并多次运行K-Means算法。

所有对象赋值后，重新计算K个聚类的中心时，对于连续数据，聚类中心取该聚类的平均值，但当样本的某些属性为分类变量时，平均值可能无法定义，因此可以使用K- mode方法。

误差拉平法和SSE(误差平方和)被用作衡量聚类质量的目标函数。对于两个不同的聚类结果，选择误差平方和较小的分类结果。

摘要

分组特征1: R区间比较大，主要集中在30 80天；消费次数集中在0 15次；消费金额为:0 ~ 2000；

集群2的特点:R间隔相对较小，主要集中在0-30天；消费次数集中在0 10次；消费金额为:0 ~ 1800；

集群3的特点:R间隔相对较小，主要集中在0-30天；消费次数集中在10 25次；消费金额为:500 ~ 2000；

对比分析

第三组是高消费高价值组，时间间隔短，消费次数多，消费金额大。

聚类2的时间间隔、消费次数、消费金额中等，代表一般价值客户。

时间间隔长，消费次数少，消费金额不是特别高，价值不高的1群客户。