61、数据流挖掘技术详解

数据流挖掘技术详解

1. 数据流统计估计方法

在数据流处理中,不同的概要结构适用于不同类型的查询。下面介绍几种常用的方法。

1.1 AMS Sketch

AMS Sketch 可有效估计数据流的二阶矩等统计信息。
- 原理
- 对于每个流元素,通过哈希函数生成一个随机二进制值 (r \in {-1, 1}),这些二进制值假定为 4 - 独立的。
- 设第 (i) 个流元素的聚合频率为 (f_i),数据流的二阶矩 (F_2) 定义为 (F_2 = \sum_{i=1}^{n} f_i^2)。
- AMS Sketch 包含 (m) 个不同的草图组件,每个组件与一个独立的哈希函数相关联。对于每个传入的流元素,生成随机二进制值 (r),将元素频率 (f_i) 乘以 (r) 并累加到草图的相应组件 (Q) 中,即 (Q = \sum_{i=1}^{n} f_i \cdot r_i)。
- 二阶矩估计
- 引理表明,数据流的二阶矩可以通过 AMS 草图组件 (Q) 的平方来估计,即 (F_2 = E[Q^2])。
- 草图组件 (Q^2) 的方差有上界 (Var[Q^2] \leq 2 \cdot F_2^2)。通过对 (m) 个不同草图组件 (Q_1 \cdots Q_m) 求平均,可以进一步降低方差。
- 利用“均值 - 中位数组合技巧”,可以以至少 (1 - \delta) 的概率保证二阶矩估计的精度在 (1 \pm \epsilon) 范围内。具体步骤如下:
1. 选择 (m = O(\ln(1/\delt

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值