Web耦合查询机制详解
1. 耦合查询概述
在Web信息检索中,耦合查询是一种重要的查询机制。为了理解耦合查询,我们首先要构建一个Web信息模型。
1.1 信息空间
WWW包含了大量的信息空间,从简单文件到复杂的服务提供商,它们分布在互联网上。为了能正式处理信息,需要定义一个概念上统一的信息空间,用户可以基于此空间来制定查询。这个信息空间需具备以下Web特征:
- 信息内容 :要包含信息内容和一些元数据信息。
- 超文本结构 :在超文本环境中,文档的组织方式也传达着信息。信息空间必须反映超文本的图结构,以便搜索超文本结构信息。
我们将WWW视为一个有向图,虽然整个图的拓扑结构未知,但可以通过浏览Web部分推断出来。图的顶点和边由所有可能的WWW导航活动定义。假设WWW是确定性的,即其结构、内容和程序(如CGI脚本)是静态的,且程序是确定性且与时间无关。这是对WWW的简化,但能让我们假定在查询执行期间WWW不会改变。
以下是WWW图的定义:
定义6.2:一个WWW图G(WWW) = (V, E) 是一个二元组,其中V和E分别是Web上节点和链接对象的集合,且E ⊆ V × V。每条边e ∈ E 是从节点对象v ∈ V 到u ∈ V 的超链接,具体情况包括:
- 点击v中有效超链接可访问的文件对应的任何节点对象。
- 填写v中的表单返回的数据对应的任何节点对象。
- 点击v中无效超链接获得的默认错误HTML消息(Error 404)。
这个定义是对实际WWW的简化模型,便于处理。该模型可
超级会员免费看
订阅专栏 解锁全文
5030

被折叠的 条评论
为什么被折叠?



