不确定数据流上的连续排名查询及概率链接上的排名查询
不确定数据流上的连续排名查询
在处理不确定数据流时,对于流的滑动窗口 $W(O)$,我们使用 $\frac{\hat{U}(Pr_k(O)) - \hat{L}(Pr_k(O))}{2}$ 作为 $Pr_k(O)$ 的近似值。定理 6.9 表明,对于流 $O$ 和滑动窗口 $W(O)$,设 $\hat{Pr}_k(O) = \frac{\hat{U}(Pr_k(O)) - \hat{L}(Pr_k(O))}{2}$,则 $|\hat{Pr}_k(O) - Pr_k(O)| \leq \varphi + \varepsilon$。
基于分位数的空间高效算法
可以使用近似分位数摘要来扩展确定性算法和采样算法。由于近似分位数摘要会丢失信息,确定性算法的扩展只能提供近似答案。
- 确定性方法计算上下界 :
1. 首先将所有区间的最大值和最小值按排名顺序排序。
2. 然后扫描排序后的列表一次,计算每个区间的前 $k$ 概率的近似上界和近似下界。
3. 对于每个流 $O$,维护已扫描的 $W(O)$ 中实例数量的上下界,以及到目前为止 $Pr_k(O)$ 的上下界。
该扩展算法在滑动窗口中查询评估的时间复杂度为 $O(\frac{kn^2}{\varphi} + \frac{n}{\varphi} \log(n \frac{1}{\varphi}))$,近似误差的上界为 $\varphi + \varepsilon$。
- 采样方法计算上下界 :
1. 如前文所述均匀随机抽取 $m$ 个样本单