3、时间序列数据挖掘中的相似性度量与降维技术

时间序列数据挖掘中的相似性度量与降维技术

1. 引言

时间序列是“随时间观察到的数据序列 X = (x1, x2, …, xm)”,其中 m 是观察次数。跟踪特定现象或数据随时间的变化能产生重要信息。在气象学、地球物理学和天体物理学等众多现实应用中,收集到的观测数据都可以表示为时间序列。

时间序列的集合可定义为时间序列数据库(TSDB)。在 TSDB 中,大部分时间序列挖掘工作都围绕相似性匹配问题展开。时间序列数据挖掘可借鉴信号处理等研究领域的方法,例如,图像数据可以转换为时间序列,从可应用图像匹配的 RGB 图像颜色直方图,到用于形状特征描述的对象周长。

时间序列本质上是高维数据,挖掘高维数据面临诸多挑战,包括维度灾难以及高维空间中相似性度量的意义问题。提高时间序列挖掘性能的一项重要任务是降低其维度,同时保留主要特征并反映数据的原始相似性(这种效果称为下界属性)。在处理时间序列时,两个相同长度序列之间的相似性可以通过计算它们对应点之间的有序距离之和来得到。最常用的距离函数是欧几里得距离,它属于度量距离函数,满足非负性、对称性和三角不等式这三个基本度量属性。在大多数情况下,度量函数是理想的,因为三角不等式可用于在搜索过程中修剪索引,从而加快精确匹配的执行速度。然而,欧几里得距离及其变体存在一些缺点,使其在某些应用中不太适用。因此,人们提出了其他距离度量技术,以提高相似性计算的鲁棒性,如动态时间规整(DTW),它使距离比较对信号的平移、均匀幅度缩放或均匀时间缩放等变换不太敏感。此外,还有一些距离度量方法可以克服信号变换问题,如地标相似性,它不依赖于传统的基于逐点欧几里得距离的相似性模型,而是基于“最重要”点(如局部最大值、局部最小值、拐点)的相似性。

与此同时,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值