在线查询回答技术解析
1. 引言
在处理不确定数据的概率排名查询时,高效的查询回答方法至关重要。本文将详细介绍几种常见查询类型的回答方法,包括 PT - k 查询、Top - (k, l) 查询和 Top - (p, l) 查询,以及一种快速构建索引的方法 PRist+。
2. PT - k 查询回答
2.1 示例说明
考虑不确定元组,对于一个 PT - k 查询,其中 k = 3,p = 0.45。我们只需查看包含 p = 0.45 的概率区间 b3 = (0.4, 0.6]。在 b3 的 U - 列表中,t3.U3 = 3 且 t4.U3 = 3,这意味着 Pr3(t3) > 0.6 且 Pr3(t4) > 0.6,所以 t3 和 t4 可直接加入答案集,无需计算其精确的 top - k 概率。在 b3 的 L - 列表中,t2.L3 = 4,即 Pr4(t2) ≤ 0.4,因此 t2 可被剪枝。最后,只需计算 t1 的 top - 3 概率,由于 Pr3(t1) = 0.5,t1 也可加入答案集,最终答案为 {t1, t3, t4}。
2.2 查询评估步骤
- 步骤 1:边界确定
使用推论 5.4 来确定元组 t 的 top - k 概率是否位于区间 bi 内。
推论 5.4:设 T 是由 PRist 索引的不确定元组集合,粒度参数为 h。对于元组 t ∈ T 和正整数 k,如果 bi (1 ≤ i ≤ h) 是概率区间,使得 t.Li < k < t.Ui,则 (i - 1) / h < Prk(t) ≤