数据流挖掘技术详解
1. 数据流统计估计方法
在数据流处理中,不同的概要结构适用于不同类型的查询。下面介绍几种常用的方法。
1.1 AMS Sketch
AMS Sketch 可有效估计数据流的二阶矩等统计信息。
- 原理 :
- 对于每个流元素,通过哈希函数生成一个随机二进制值 (r \in {-1, 1}),这些二进制值假定为 4 - 独立的。
- 设第 (i) 个流元素的聚合频率为 (f_i),数据流的二阶矩 (F_2) 定义为 (F_2 = \sum_{i=1}^{n} f_i^2)。
- AMS Sketch 包含 (m) 个不同的草图组件,每个组件与一个独立的哈希函数相关联。对于每个传入的流元素,生成随机二进制值 (r),将元素频率 (f_i) 乘以 (r) 并累加到草图的相应组件 (Q) 中,即 (Q = \sum_{i=1}^{n} f_i \cdot r_i)。
- 二阶矩估计 :
- 引理表明,数据流的二阶矩可以通过 AMS 草图组件 (Q) 的平方来估计,即 (F_2 = E[Q^2])。
- 草图组件 (Q^2) 的方差有上界 (Var[Q^2] \leq 2 \cdot F_2^2)。通过对 (m) 个不同草图组件 (Q_1 \cdots Q_m) 求平均,可以进一步降低方差。
- 利用“均值 - 中位数组合技巧”,可以以至少 (1 - \delta) 的概率保证二阶矩估计的精度在 (1 \pm \epsilon) 范围内。具体步骤如下:
1. 选择 (m = O(\ln(1/\delt
超级会员免费看
订阅专栏 解锁全文
1310

被折叠的 条评论
为什么被折叠?



