不确定数据上的概率排名查询
在处理不确定数据时,概率排名查询是一个重要的问题。传统的枚举所有可能世界并对每个可能世界应用查询的方法效率低下,尤其是在处理大规模不确定数据集时。因此,我们需要开发高效的算法来避免搜索所有可能世界。
1. 前 k 概率计算
前 k 概率和 p - 排名可以直接从第 k 名概率推导得出。下面我们将详细介绍相关内容。
1.1 优势集属性
考虑一个在不确定表 T 上的前 k 选择查询 $Q_{k}^{P,f}$。$P(T) = {t|t \in T \land P(t) = true}$ 是满足查询谓词的元组集合。移除不在 $P(T)$ 中的元组不会影响 $P(T)$ 中元组的第 k 名概率,所以在计算第 k 名概率时,我们只需要考虑 $P(T)$。为了简化讨论,我们用 T 表示满足查询谓词 P 的元组集合。
对于元组 $t \in T$ 和可能世界 $W$(其中 $t \in W$),$t$ 是否在 $W_f(k)$ 中仅取决于 T 中排名高于 $t$ 的其他元组在 $W$ 中出现的数量。
定义 1(优势集) :给定概率表 T 上的评分函数 f,对于元组 $t \in T$,$t$ 的优势集是 T 中排名高于 $t$ 的元组子集,即 $S_t = {t’|t’ \in T \land t’ \prec_f t}$。
定理 1(优势集属性) :对于元组 $t \in T$,$Pr_{k}^{Q,T}(t) = Pr_{k}^{Q,S_t}(t)$,其中 $Pr_{k}^{Q,T}(t)$ 和 $Pr_