流数据、时间序列和序列数据挖掘全解析
1. 流数据概述
流数据持续不断地流入和流出计算机系统,其更新速率各不相同。它具有时间顺序性、快速变化性、数据量巨大(从千兆字节到兆兆字节不等)且可能是无限的特点。流数据的应用领域广泛,涵盖电信、金融市场以及卫星数据处理等。
为了处理流数据,我们可以使用概要(Synopses)来对其进行总结,通常能为查询提供近似答案。常见的概要形式包括:
- 随机抽样(Random sampling)
- 滑动窗口(Sliding windows)
- 直方图(Histograms)
- 多分辨率方法(Multiresolution methods,用于数据缩减)
- 草图(Sketches,单遍操作)
- 随机算法(Randomized algorithms)
倾斜时间框架模型(Tilted time frame model)允许数据以多种时间粒度进行存储。最新时间以最细粒度记录,最久远时间以最粗粒度记录。流数据立方体(Stream data cube)通过以下方式存储压缩数据:
1. 在时间维度上使用倾斜时间框架模型。
2. 仅在某些关键层存储数据,这些关键层反映了分析师最感兴趣的数据级别。
3. 基于通过关键层的“热门路径”进行部分实例化。
传统的频繁项集挖掘、分类和聚类方法通常需要多次扫描数据,这对于流数据来说是不可行的。基于流的挖掘方法则尝试在用户指定的误差范围内找到近似答案。例如:
- 频繁项集流挖掘的有损计数算法(Lossy Counting algorithm)
- 流数据分类的霍夫丁树(Hoeffding tre
超级会员免费看
订阅专栏 解锁全文
1317

被折叠的 条评论
为什么被折叠?



