不确定数据的概率排名查询:模型与查询解析
1. 不确定对象的排名概率
在对象层面,定义了两个重要的概率概念:对象的第 k 名概率和前 k 名概率。
- 对象第 k 名概率 :对于一个不确定对象 O,对象第 k 名概率 Pr(O,k) 是指对象 O 中的任何实例 o 在可能世界中根据某个函数 f 被排名在第 k 位的概率,计算公式为:
[Pr(O,k) = \sum_{o\in O} Pr(o,k)]
- 对象前 k 名概率 :对象前 k 名概率 Prk(O) 是指对象 O 中的任何实例在可能世界中被排名在前 k 位的概率,计算公式为:
[Pr_k(O) = \sum_{o\in O} \sum_{j = 1}^{k} Pr(o, j)]
2. 扩展的不确定数据模型
为了满足不同的应用需求,介绍了三种扩展的不确定数据模型和相应的排名查询。
2.1 不确定数据流模型
不确定对象的实例可能会快速持续到达,因此可以将其建模为数据流。每个时间点 t(t > 0)会为不确定数据流收集一个实例。为了近似时间随机变量的当前分布,通常使用最近时间窗口内的变量观测值作为样本实例。
- 不确定数据流和滑动窗口 :
- 不确定数据流是一个(可能无限的)实例序列 O = o1, o2, ···。给定时间点 t(t > 0),O[t] 是数据流 O 在该时间点的实例。
- 滑动窗口 (W_t^{\omega}) 是一个选择算子,定义为 (W_t^{\omega}(O)