如何处理聚类分析中的缺失数据

(1)删除缺少值的数据。如果数据集中只有少量数据有缺失值,忽略它们可能是合理的。但是,如果给定的数据集中有很多缺失值的数据,采用这种策略很难对数据进行可靠的分析,而且缺失值的数据中也包含一定的信息,这些信息可能对分析非常重要,所以我们应该非常小心地忽略它们,并确保不会影响分析。(2)估算缺失值。有时,可以根据数据的特征可靠地估计缺失值。具体来说,根据相邻点的属性值来估计缺失值,往往选择相邻点的平均属性值来代替缺失值,有时选择数据集的平均值来代替缺失值,或者进行曲线拟合,根据拟合结果选择合适的属性值。(3)忽略缺失值。很多聚类算法可以用来直接处理有缺失值的数据,比如计算对象之间的相似度。对于有缺失值的数据,可以用没有缺失值的属性值来计算相似度,这只是近似的。除非整个数据的属性很少或者很多数据有缺失值,否则误差影响很小。