47、流数据、时间序列和序列数据挖掘全解析

最新推荐文章于 2025-07-06 20:20:20 发布

aa123

最新推荐文章于 2025-07-06 20:20:20 发布

阅读量54

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘：从入门到精通文章标签：流数据时间序列序列数据挖掘

本文链接：https://blog.youkuaiyun.com/aa123/article/details/149365218

数据挖掘：从入门到精通专栏收录该内容

61 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

流数据、时间序列和序列数据挖掘全解析

1. 流数据概述

流数据持续不断地流入和流出计算机系统，其更新速率各不相同。它具有时间顺序性、快速变化性、数据量巨大（从千兆字节到兆兆字节不等）且可能是无限的特点。流数据的应用领域广泛，涵盖电信、金融市场以及卫星数据处理等。

为了处理流数据，我们可以使用概要（Synopses）来对其进行总结，通常能为查询提供近似答案。常见的概要形式包括：
- 随机抽样（Random sampling）
- 滑动窗口（Sliding windows）
- 直方图（Histograms）
- 多分辨率方法（Multiresolution methods，用于数据缩减）
- 草图（Sketches，单遍操作）
- 随机算法（Randomized algorithms）

倾斜时间框架模型（Tilted time frame model）允许数据以多种时间粒度进行存储。最新时间以最细粒度记录，最久远时间以最粗粒度记录。流数据立方体（Stream data cube）通过以下方式存储压缩数据：
1. 在时间维度上使用倾斜时间框架模型。
2. 仅在某些关键层存储数据，这些关键层反映了分析师最感兴趣的数据级别。
3. 基于通过关键层的“热门路径”进行部分实例化。

传统的频繁项集挖掘、分类和聚类方法通常需要多次扫描数据，这对于流数据来说是不可行的。基于流的挖掘方法则尝试在用户指定的误差范围内找到近似答案。例如：
- 频繁项集流挖掘的有损计数算法（Lossy Counting algorithm）
- 流数据分类的霍夫丁树（Hoeffding tre