47、流数据、时间序列和序列数据挖掘全解析

流数据、时间序列和序列数据挖掘全解析

1. 流数据概述

流数据持续不断地流入和流出计算机系统,其更新速率各不相同。它具有时间顺序性、快速变化性、数据量巨大(从千兆字节到兆兆字节不等)且可能是无限的特点。流数据的应用领域广泛,涵盖电信、金融市场以及卫星数据处理等。

为了处理流数据,我们可以使用概要(Synopses)来对其进行总结,通常能为查询提供近似答案。常见的概要形式包括:
- 随机抽样(Random sampling)
- 滑动窗口(Sliding windows)
- 直方图(Histograms)
- 多分辨率方法(Multiresolution methods,用于数据缩减)
- 草图(Sketches,单遍操作)
- 随机算法(Randomized algorithms)

倾斜时间框架模型(Tilted time frame model)允许数据以多种时间粒度进行存储。最新时间以最细粒度记录,最久远时间以最粗粒度记录。流数据立方体(Stream data cube)通过以下方式存储压缩数据:
1. 在时间维度上使用倾斜时间框架模型。
2. 仅在某些关键层存储数据,这些关键层反映了分析师最感兴趣的数据级别。
3. 基于通过关键层的“热门路径”进行部分实例化。

传统的频繁项集挖掘、分类和聚类方法通常需要多次扫描数据,这对于流数据来说是不可行的。基于流的挖掘方法则尝试在用户指定的误差范围内找到近似答案。例如:
- 频繁项集流挖掘的有损计数算法(Lossy Counting algorithm)
- 流数据分类的霍夫丁树(Hoeffding tre

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值