k-Shape: Efficient and Accurate Clustering of Time Series
John Paparrizos Luis Gravano Columbia University
ACM SIGMOD 2015
主要贡献
- 提出一种新的对尺度和漂移具有不变性的距离度量
- 提出一种新的计算聚类中心的方法
- 提出一种通用性强的时间序列聚类算法——k-shape算法
- 通过实验验证算法为state-of-the-art
目前聚类算法存在的问题
- 无法处理大的数据集,计算复杂度高
- 通用性不好,一般只针对特定问题有效
时间序列比较的关键问题——处理各种distortions(扭曲?)
- Scaling and transform invariances 量纲不同、映射不变性
- Shift invariances 序列相似但是存在相位漂移
- Uniform scaling invariance 序列的长度不一致(压缩、拉伸)
- Occlusion invariance 序列存在缺失
本文主要解决前两个问题,第一个问题通过z-normalization可以解决。
基于互相关的度量SBD——解决相位漂移问题
固定序列y,移动序列x,找到最佳匹配