基于内容和结构概要定位与排名 XML 文档
1. 引言
随着 XML 作为各种 Web 数据存储库的数据格式广泛应用,人们在设计强大的查询语言、开发高效的索引和查询评估算法以及提出有效的 XML 数据排名方案等方面开展了大量工作。不过,现有的大多数方案在评估全文 XML 查询时,需要在长倒排列表之间进行代价高昂的包含连接操作,这可能不适用于在线交互式和数据密集型的 Web 应用。
本文提出了一种新的框架,用于基于从 XML 文档中提取的内容和结构概要对 XML 文档进行索引、定位和排名。该框架的主要贡献包括:
- 提出了一种基于内容和结构概要搜索 XML 文档的有效框架。
- 提出了一种适用于全文 XPath 评估的高效 XML 元数据索引方案。
- 引入了一种有效的聚合排名方案,根据数据概要对 XML 文档进行评分。
- 通过实验验证了索引方案的效率和排名方案的有效性。
2. 查询规范与文档索引
- 查询语言 :本文的查询语言是扩展了全文搜索谓词
e ∼S的 XPath,其中e是 XPath 表达式。当e返回的序列中至少有一个元素与搜索规范S匹配时,该谓词返回true。搜索规范是一种简单的 IR 风格布尔关键字搜索,形式如下:- “term”
-
S1 and S2 -
S1 or
超级会员免费看
订阅专栏 解锁全文
53

被折叠的 条评论
为什么被折叠?



