概率链接上的排名查询与子图概率计算
1. 概率链接模型下的查询挑战
在处理概率链接模型上的概率阈值 top - k 查询时,由于元组之间存在依赖关系,传统的查询回答技术无法直接应用。主要存在以下四个方面的差异,下面将逐一进行详细探讨。
1.1 谓词处理
在回答 top - k 选择查询 $Q_{k}^{P,f}$ 时,首要步骤是处理查询谓词 $P$。对于概率链接,其谓词处理技术与独立不确定对象的处理技术有所不同。
在独立不确定对象的处理中,给定不确定表 $T$ 和 top - k 选择查询 $Q_{k}^{P,f}$,可以将查询谓词 $P$ 作为预处理,即选择所有满足查询谓词的元组 $P(T) = {t|t \in T \land P(t) = true}$。这样,回答 $PT - k$ 查询的问题就转化为在 $P(T)$ 中找到 top - k 概率值超过概率阈值的元组。
然而,在概率链接模型中,由于存在依赖关系,同样的预处理方法并不适用。以下通过一个具体例子来说明:
假设存在如图 7.2 所示的链接,谓词 $P$ 选择链接 ${l_1, l_3, l_4, l_6, l_7}$,而 $l_2$ 和 $l_5$ 不满足谓词 $P$。我们使用 PME - 图来表示这些链接,并用阴影节点表示满足谓词 $P$ 的链接,如图 7.5(a) 所示。若采用与独立不确定对象相同的预处理方法,就需要移除不满足 $P$ 的顶点 $v_2$ 和 $v_5$。但移除顶点 $v_5$ 后,$C_3$ 中的顶点与 $C_2$ 中的顶点会断开连接,这意味着它们变得独立,从而无法保留顶点之间的依赖关系。而移除 $v_2$ 则不会改变顶点之间的依赖关系,也
超级会员免费看
订阅专栏 解锁全文
2074

被折叠的 条评论
为什么被折叠?



