不确定数据上的概率排名查询方法解析
1. 基于泊松近似的方法
1.1 前 k 概率的分布
设 $X_1, \cdots, X_n$ 为一组独立随机变量,其中 $Pr(X_i = 1) = p_i$ 且 $Pr(X_i = 0) = 1 - p_i$($1 \leq i \leq n$),令 $X = \sum_{i = 1}^{n} X_i$,则 $E[X] = \sum_{i = 1}^{n} p_i$。若所有 $p_i$ 相同,$X_1, \cdots, X_n$ 为伯努利试验,$X$ 服从二项分布;否则为泊松试验,$X$ 服从泊松二项分布。
对于元组 $t \in T$,其前 $k$ 概率 $Pr_k(t) = Pr(t) \sum_{j = 1}^{k} Pr(T(t), j - 1)$,其中 $Pr(t)$ 是 $t$ 的成员概率,$T(t)$ 是 $t$ 的压缩优势集。少于 $k$ 个元组出现在 $T(t)$ 中的概率为 $\sum_{j = 1}^{k} Pr(T(t), j - 1)$。
若 $T(t)$ 中有概率为 1 的元组或生成规则元组,可将其从 $T(t)$ 中移除并计算 $t$ 的前 $(k - 1)$ 概率,因此可假设 $T(t)$ 中任何元组或规则元组的成员概率小于 1。
为计算 $Pr_k(t)$,构建与 $T(t)$ 对应的泊松试验集:
- 对于每个独立元组 $t’ \in T(t)$,构建随机试验 $X_{t’}$,其成功概率 $Pr(X_{t’} = 1) = Pr(t’)$。
- 对于每个多元组生成规则 $R^{\oplus}$($R^{\oplus} \cap T(t) \n