《YADING: Fast Clustering of Large-Scale Time Series Data》论文解读

徐周

于 2018-11-15 09:03:45 发布

阅读量2.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： Time series clustering 文章标签： time series cluster

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_28900249/article/details/84097805

本文详细介绍了YADING算法，这是一种针对大规模时间序列数据的快速聚类方法，包括数据降维、聚类和分配三个步骤。通过随机采样和PAA降维减少计算开销，使用L1距离和改进的Multi-DBSCAN进行聚类，最后通过有序邻居图辅助分配剩余数据。实验表明，YADING在计算效率和准确性上优于其他常见算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.介绍

本文提出了一个端到端的时间序列聚类算法-YADING，其可以自动对时间序列进行快速准确的聚类。算法由三个部分组成：

（1）对输入数据进行采样。对大量的时序数据进行随机采样，并使用逐段聚集平均（PAA）算法缩减每条时序数据实例的维度。用采样后的数据集作为聚类算法的输入。

（2）在采样后的时间序列上进行聚类。使用L1距离作为时序数据曲线间的相似性度量。在基于密度的聚类算法DBSCAN的基础上，设计出多密度的聚类算法Multi-DBSCAN，并使算法能够自动决定参数。

（3）将剩余的输入数据分配到聚类中。对于采样中未被选择的大量时序数据曲线，采用分派策略将其分到与其L1距离最近的已聚类曲线所属的聚类簇中。同时建立了有序邻居图（Sorted Neighbor Graph, SNG）辅助计算时序数据实例之间的距离，提高分派算法的计算效率。

2.相关工作

现有的时间序列聚类算法可以分为两类：基于原始数据定义的相似度衡量方法，或者是基于从输入数据提取出来特征的方法。欧式距离（ED）、DTW属于第一类。ARIMA、高斯混合模型属于第二类衡量相似性的方法。基于模型的方法由于模型学习复杂从而导致时间复杂度较高。

上述方法研究的是通过利用原有的相似度衡量方法改进聚类算法，虽然原有的方法可以提高聚类准确性，但是时间复杂度相对比较高，本文提出了距离衡量时间复杂度低的快速聚类。

3.算法

YADING算法由三部分组成：数据降维、聚类、分配。数据降维通过对输入数据采样，并且减少输入数据维度。然后对采样的数据进行聚类。最后，所有的数据分配到采样数据的聚类中。

3.1 数据降维

本文通过随机采样和维度缩减的手段降低需要考察的实例数目和维度，将采样后的数据集作为聚类模块的输入，降低计算开销。

由于不需要对输入数据的分布作任何假设，随机采样

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄10年

77
原创

193
点赞

1919
收藏

115
粉丝

关注

私信

分类专栏

展开全部收起

上一篇：: 时间序列聚类算法-《k-Shape: Efficient and Accurate Clustering of Time Series》解读

下一篇：: 时间序列论文解读《Fuzzy c-Shape: A new algorithm for clustering finite time series waveforms》

最新评论

Kafka常见面试题
Menian: 目前record的格式粉两个版本v0和v1，v1比v0多一个字段即timestamp(8B)，处于magic和atrributes之间
Kafka常见面试题
Menian: 13问，kafka的message格式是错误的；正确的是一个Kafka的message由header和record组成。其中header部分由offset(8B)和message size(4B)组成，是固定大小，12B；而record由crc32(4B)，magic(1B)，atrributes(1B)，key length(4B)，key(取决于真正key的大小，可以为null)，value length(4B)，value(取决于真正key的大小，可以为null)；
Kafka常见面试题
Charle_: 里面有很多错误之处
Kafka常见面试题
雷鑫宇: 感谢，整理的很不错
Kafka常见面试题
想看天空的深海鱼: 消息队列是队列，先进先出。Kafka是一个分布式的流处理平台，够支持pub/sub，可以在许多服务器上进行扩展，并重新播放消息。我个人认为kafka可以作为消息队列使用但它本身并不是消息队列

大家在看

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。