不确定数据上的概率排名查询方法
在处理不确定数据时,概率排名查询是一个重要的问题。本文将介绍基于泊松近似的方法以及在线查询回答的相关技术,帮助大家更好地理解和处理这类查询。
1. 基于泊松近似的方法
1.1 前 k 概率的分布
首先,我们来分析前 k 概率的分布特性。设 $X_1, \cdots, X_n$ 是一组独立的随机变量,其中 $Pr(X_i = 1) = p_i$ 且 $Pr(X_i = 0) = 1 - p_i$($1 \leq i \leq n$),令 $X = \sum_{i = 1}^{n} X_i$,则 $E[X] = \sum_{i = 1}^{n} p_i$。
- 若所有 $p_i$ 相同,$X_1, \cdots, X_n$ 称为伯努利试验,$X$ 服从二项分布。
- 否则,$X_1, \cdots, X_n$ 称为泊松试验,$X$ 服从泊松二项分布。
对于元组 $t \in T$,其前 k 概率 $Pr_k(t) = Pr(t) \sum_{j = 1}^{k} Pr(T(t), j - 1)$,其中 $Pr(t)$ 是 $t$ 的成员概率,$T(t)$ 是 $t$ 的压缩优势集。并且,$T(t)$ 中出现少于 $k$ 个元组的概率为 $\sum_{j = 1}^{k} Pr(T(t), j - 1)$。
为计算 $Pr_k(t)$,我们构建与 $T(t)$ 对应的一组泊松试验:
- 对于每个独立元组 $t’ \in T(t)$,构建随机试验 $X_{t’}$,其成功概率 $Pr(X_{t’} = 1) = Pr(t’)$。
- 对于每个多元组生成规则 $R^{\opl
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



