不确定流上的连续排名查询
在数据处理中,不确定流数据的连续排名查询是一个重要的问题。接下来将为大家详细介绍几种处理不确定流上连续排名查询的方法,包括精确算法、采样方法以及空间高效方法。
1. 精确算法相关概念
在滑动窗口中处理不确定流数据时,有一些重要的概念需要理解。
1.1 兼容主导集
以滑动窗口 (W_t^3) 和 (W_{t + 1}^3) 为例,在时间 (t + 1) 时,实例 (a_1,b_1,c_1,d_1) 过期,新实例 (a_4,b_4,c_4,d_4) 到来。在扫描扩展排序列表时,可以观察位图计数器的值。除了 (d_3) 外,(W_{t + 1}^3) 中的每个实例都能找到兼容主导集,仅需对 (W_{t + 1}^3) 中的 (d_3) 进行泊松递归计算。
1.2 利用最高可能排名进行剪枝
考虑滑动窗口 (W_t) 中的实例 (o),随着窗口向未来滑动,新实例到来,旧实例过期,实例 (o) 的排名可能上升或下降。但比 (o) 晚到达或同时到达的实例不会在 (o) 之前过期,因此 (o) 在未来滑动窗口中的可能排名受“不比 (o) 老”的实例限制。
- 最高可能排名引理 :对于在时间 (i) 到达的实例 (O[i]),在滑动窗口 (W_t^{\omega}(O))(其中 (t - \omega + 1 < i \leq t))中,设 (R_{O[i]} = {O’[j]|O’ \in O, O’ \neq O, j \geq i})。在任何 (t’ > t) 的滑动窗口 (W_{t’}^{\omega}) 中,(O[i