关于数量生态学||系统聚类的注记
需要注意的是,大多数聚类方法都是基于相关矩阵的,这也说明了选择合适的相关系数是非常重要的。
如图所示,我们需要识别不同类型的聚类方法及其应用条件。
单连通聚集聚类也叫最近邻聚类,这种方法的基础是最短两两距离。每个对象或集群的第一个连接的列表成为主链路和最小生成树。
允许一个对象或群集与另一个组聚合的基础是最远距离对。
单个连接意味着一个对象可以很容易地聚合成一个组,因为单个连接足以导致融合。因此,单连接聚类也称为最亲密朋友法。虽然生成的分类组不清晰,但是很容易识别梯度。相反,由全连接聚类产生的分类之间存在明显的差异。全连接聚类往往会产生许多小的独立组,更适合于查找和识别数据的不连续分布。
平均聚集聚类是一种基于对象或聚类中心的平均相异度的聚类方法。这种聚类有四种,它们之间的区别在于计算群体位置的方式,以及计算融合时是否将物体的数量作为权重包含在内。
最著名的方法是UPGMA方法。对象加入群组的基础是该对象与群组中每个成员之间的平均距离。
需要注意的是,UPGMC和WPGMC有时会造成树的翻转,分类结果很难解释。
这是一种基于最小二乘线性模型准则的聚类方法,分组依据是组内平方和最小(即方差分析的方差)。
应该记住,聚类分析是一种探索性分析,而不是统计测试。影响聚类结果的因素包括聚类方法的省和用于聚类分析的相关系数。
对于任何两个完成了层次聚类的对象,都会从聚类树上的一个对象向上,向下到返回另一个对象的节点,必然会到达第二个对象。相交节点所在的层次是两个对象之间的同型距离。
为了描述距离矩阵和通过不同聚类方法获得的同表型矩阵之间的相关性,可以绘制原始距离相对于同表型距离的Shepard。
图。
原始距离和同型距离之差的平方和。
为了解释和比较聚类的结果,通常需要找到可解释的聚类簇,这意味着需要决定聚类树应该被切割到哪一层。
聚类树的融合级别值是聚类树中两个分支融合处的相异度值。
使用cutree()函数设置分类组数,使用列联表比较分类差异。
轮廓宽度是描述对象属于其簇的程度的度量,它是一个对象与组中其他对象之间的平均距离以及该对象与最近簇中所有对象之间的平均距离的比较。
参考:
常用的聚类算法有哪些?详细介绍六种聚类算法
无监督学习-聚类
百科||聚类算法
聚类分析