19、不确定数据流上的连续排名查询及概率链接上的排名查询-优快云博客

本文链接：https://blog.youkuaiyun.com/transformer2023/article/details/149600836

不确定数据流上的连续排名查询及概率链接上的排名查询

不确定数据流上的连续排名查询

在处理不确定数据流时，对于流的滑动窗口 $W(O)$，我们使用 $\frac{\hat{U}(Pr_k(O)) - \hat{L}(Pr_k(O))}{2}$ 作为 $Pr_k(O)$ 的近似值。定理 6.9 表明，对于流 $O$ 和滑动窗口 $W(O)$，设 $\hat{Pr}_k(O) = \frac{\hat{U}(Pr_k(O)) - \hat{L}(Pr_k(O))}{2}$，则 $|\hat{Pr}_k(O) - Pr_k(O)| \leq \varphi + \varepsilon$。

基于分位数的空间高效算法

可以使用近似分位数摘要来扩展确定性算法和采样算法。由于近似分位数摘要会丢失信息，确定性算法的扩展只能提供近似答案。
- 确定性方法计算上下界 ：
1. 首先将所有区间的最大值和最小值按排名顺序排序。
2. 然后扫描排序后的列表一次，计算每个区间的前 $k$ 概率的近似上界和近似下界。
3. 对于每个流 $O$，维护已扫描的 $W(O)$ 中实例数量的上下界，以及到目前为止 $Pr_k(O)$ 的上下界。
该扩展算法在滑动窗口中查询评估的时间复杂度为 $O(\frac{kn^2}{\varphi} + \frac{n}{\varphi} \log(n \frac{1}{\varphi}))$，近似误差的上界为 $\varphi + \varepsilon$。
- 采样方法计算上下界 ：
1. 如前文所述均匀随机抽取 $m$ 个样本单