14、不确定数据上的概率排名查询方法解析

不确定数据上的概率排名查询方法解析

1. 基于泊松近似的方法

1.1 前 k 概率的分布

设 $X_1, \cdots, X_n$ 为一组独立随机变量,其中 $Pr(X_i = 1) = p_i$ 且 $Pr(X_i = 0) = 1 - p_i$($1 \leq i \leq n$),令 $X = \sum_{i = 1}^{n} X_i$,则 $E[X] = \sum_{i = 1}^{n} p_i$。若所有 $p_i$ 相同,$X_1, \cdots, X_n$ 为伯努利试验,$X$ 服从二项分布;否则为泊松试验,$X$ 服从泊松二项分布。

对于元组 $t \in T$,其前 $k$ 概率 $Pr_k(t) = Pr(t) \sum_{j = 1}^{k} Pr(T(t), j - 1)$,其中 $Pr(t)$ 是 $t$ 的成员概率,$T(t)$ 是 $t$ 的压缩优势集。少于 $k$ 个元组出现在 $T(t)$ 中的概率为 $\sum_{j = 1}^{k} Pr(T(t), j - 1)$。

若 $T(t)$ 中有概率为 1 的元组或生成规则元组,可将其从 $T(t)$ 中移除并计算 $t$ 的前 $(k - 1)$ 概率,因此可假设 $T(t)$ 中任何元组或规则元组的成员概率小于 1。

为计算 $Pr_k(t)$,构建与 $T(t)$ 对应的泊松试验集:
- 对于每个独立元组 $t’ \in T(t)$,构建随机试验 $X_{t’}$,其成功概率 $Pr(X_{t’} = 1) = Pr(t’)$。
- 对于每个多元组生成规则 $R^{\oplus}$($R^{\oplus} \cap T(t) \n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值