数据序列的向量表示与应用
1. 数据序列的表示方法
1.1 连续序列的表示
有多种方法可用于连续序列的表示:
- 符号编码与相似性度量 :先将输入序列编码为符号串,再应用新的相似性度量方法。这种表示的重要优势是具有降维能力。
- 二进制编码 :若信号值大于零返回 1,否则返回 0,从而将输入时间序列进行二进制编码。该方法能显著降低相似性计算的时间复杂度,同时使相似性测量的准确性保持在最低阈值以上,使用的相似性度量为动态时间规整(DTW)。
- 区间转换 :将时间序列转换为固定值的区间序列,然后提出新的相似性方法来比较这些序列。
- 自适应分段常数逼近(APCA) :主要关注最小化重建误差,之后提出两种适用于该表示方法的新相似性函数。
1.2 非自适应数据转换
适用于等大小的数据序列,相关方法包括小波变换、离散小波变换(DWT)、分段聚合逼近和随机映射。
2. 数据序列聚类中的相似性/距离计算方法
2.1 聚类概述
聚类是一种无需先验类别信息的数据分类算法,目标是将最相似的样本放在一个簇中,并使簇之间尽可能不同。样本之间的相似性或距离概念在聚类任务中起主要作用。
2.2 常见的相似性/距离测量方法
| 方法 | 特点 | 缺点 |
|---|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



