时间序列数据挖掘中的相似性度量与降维技术
1. 引言
时间序列是“随时间观察到的数据序列 X = (x1, x2, …, xm)”,其中 m 是观察次数。跟踪特定现象或数据随时间的变化能产生重要信息。在气象学、地球物理学和天体物理学等众多现实应用中,收集到的观测数据都可以表示为时间序列。
时间序列的集合可定义为时间序列数据库(TSDB)。在 TSDB 中,大部分时间序列挖掘工作都围绕相似性匹配问题展开。时间序列数据挖掘可借鉴信号处理等研究领域的方法,例如,图像数据可以转换为时间序列,从可应用图像匹配的 RGB 图像颜色直方图,到用于形状特征描述的对象周长。
时间序列本质上是高维数据,挖掘高维数据面临诸多挑战,包括维度灾难以及高维空间中相似性度量的意义问题。提高时间序列挖掘性能的一项重要任务是降低其维度,同时保留主要特征并反映数据的原始相似性(这种效果称为下界属性)。在处理时间序列时,两个相同长度序列之间的相似性可以通过计算它们对应点之间的有序距离之和来得到。最常用的距离函数是欧几里得距离,它属于度量距离函数,满足非负性、对称性和三角不等式这三个基本度量属性。在大多数情况下,度量函数是理想的,因为三角不等式可用于在搜索过程中修剪索引,从而加快精确匹配的执行速度。然而,欧几里得距离及其变体存在一些缺点,使其在某些应用中不太适用。因此,人们提出了其他距离度量技术,以提高相似性计算的鲁棒性,如动态时间规整(DTW),它使距离比较对信号的平移、均匀幅度缩放或均匀时间缩放等变换不太敏感。此外,还有一些距离度量方法可以克服信号变换问题,如地标相似性,它不依赖于传统的基于逐点欧几里得距离的相似性模型,而是基于“最重要”点(如局部最大值、局部最小值、拐点)的相似性。
与此同时,
超级会员免费看
订阅专栏 解锁全文
57

被折叠的 条评论
为什么被折叠?



