阅读文章“不等时间序列的滑动窗口STS距离聚类算法”
1)时间序列聚类的研究一般采用等长划分,这样会丢失重要的特征点,对聚类结果产生负面影响。
2)不能通过使用时间序列测量来精确地测量相似性。
以下埃博拉出血热和卫生部数值差不多,但教育部和卫生部形态更相似。如果用传统的欧几里德距离来衡量形状,可能不太合适。
不等时间序列的滑动窗口STS聚类算法:
1)标准分数z_score预处理用于消除时间序列观测值的量级差异的影响。
2)改变了相似度计算方法,基于滑动窗口计算不等长序列的距离。
3)基于k-means聚类算法的中心曲线计算方法。
时间序列数据因其对趋势信息的直观呈现,被广泛应用于社交网络、互联网搜索和新闻媒体数据分析。例如,谷歌通过搜索流感相关信息的时间序列来预测流感爆发的趋势。根据一个话题的热度时间序列数据趋势的规律性,通过聚类来区分不同类型的时间序列数据。同一聚类中的Twitter话题具有相同或相似的发展趋势,然后用于预测话题的发展趋势。
时间序列聚类算法可以分为两类。
1)基于原始数据的时间序列聚类算法。
2)基于特征的时间序列聚类算法。
基于特征的时间序列聚类算法是指根据原始数据从时间序列中提取形态特征(极值点位置、分段斜率)、结构特征(均值、方差等统计特征)和模型特征(模型的预测值),从而根据这些特征值进行聚类。这种方法的优点是解决了不等时间序列的聚类问题,缺点是原始数据被弱化,聚类的形状趋势信息往往比较粗糙。
3.怎么
一、距离测量公式
STS距离计算为累积时间序列之间每个时间间隔的斜率差的平方,公式为
如上图所示,g1和g2的欧氏距离值更接近g2和g3的欧氏距离值。g1和g2的STS距离大于g2和g3。在形状距离方面,STS距离计算方法表现更好,可以在一定程度上解决欧氏距离度量时间序列的局部特征信息确实受观测值大小差异影响的问题,但仍然无法度量不等长时间序列的距离。
基于滑动窗口的STS距离公式。
如上图所示,在计算不同长度的时间序列的S和R之间的距离时,先对时间序列S进行连续移位,然后找到S和R之间距离最近的字段,就像上图中虚线之间的位置一样。此时S和R之间的距离最近,这个最近的距离作为S和R之间的距离。
二、预处理过程
Z-score标准分数用观测数据和观测数据平均值之间的距离代替原始观测值。z-score处理后的数据平均值为0,标准差为1。标准差的作用是统一量纲,去除数值大小差异的影响。
摘要
提出了一种基于形状距离的不等长时间序列聚类方法。我们能学到的是
1)z-score统一了维度,消除了数值数量级差异,聚类效果更好。
2)通过计算X和Y时间序列的STS距离,可以将其中一个时间序列进行移位,找到最小值作为STS距离值,消除了同一时间序列起点不同的影响。