Web数据查询:连接性与耦合查询机制解析
1. 连接性的概念与可视化
连接性是描述一组网页文档之间相互关系的谓词。要定义连接性元素,需先使用谓词将文档和超链接分类,再利用这些类型标识符来定义连接性。连接性由源标识符、目标标识符和链接路径表达式三个部分组成,可分为简单连接性和复杂连接性。简单连接性仅包含简单链接路径表达式,复杂连接性则包含正则链接路径表达式。
连接性 $k ≡x⟨ρ⟩y$ 可以用无环有向图 $G(k)$ 进行可视化表示。图的边对应连接性中的链接类型标识符,$G(k)$ 有一个源顶点 $x$(入度为 0)和一个叶顶点 $y$(出度为 0),部分边可能与其他边存在析取关系。若 $k$ 是简单连接性,$G(k)$ 没有内部顶点,代表长度为 1 的路径;若 $k$ 是复杂连接性,$G(k)$ 包含一组内部顶点,每个顶点由一个自由节点类型标识符标记,且 $k$ 等价于一组析取范式(DNF)的简单连接性,即 $k ≡C1 ∨C2 ∨· · · ∨Cn$,其中每个 $Ci$ 代表 $G(k)$ 中根顶点和叶顶点之间的一条路径。
1.1 无环有向图 $G(k)$ 的定义
- 顶点集合 $V_k$ :$V_k = V_{kr} ∪V_{ki} ∪V_{kℓ}$ 是一个有限的标记顶点集合。$V_{kr} = {v_r}$ 是 $G(k)$ 的根顶点,$id(v_r) = x$;$V_{kℓ} = {v_ℓ}$ 是 $G(k)$ 的叶顶点,$id(v_ℓ) = y$;$v_i ∈V_{ki}$ 是一组(可能为空)内部顶点,$label(v_i) = #j$($j > 0$),且 $V_{kr} ∩V_{ki}
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



