解决 XML 关键字搜索中因对象重复导致的答案缺失问题
在 XML 关键字搜索里,对象重复现象常常会造成答案缺失。为解决这一问题,我们提出了一种新方法,下面将详细介绍该方法的原理、实现步骤及实验结果。
1. 核心概念
1.1 中心节点
在搜索答案的节点集合中,中心节点至关重要,它通过连接节点将匹配节点相连,对应着公共祖先和公共后代。直观来讲,公共祖先类似 LCA 语义,而公共后代能提供缺失的答案。一个中心节点要么只有入边(作为公共后代),要么只有出边(作为公共祖先),不会两者兼具。
1.2 避免信息重叠
定义中的第二个属性 P2 旨在避免答案中的信息重叠。每个答案需有自己的匹配节点集合,以贡献新信息,即一个答案的匹配节点不能同时是其祖先/后代答案的匹配节点。
2. 方法概述
2.1 整体流程
该方法以数据中心的 XML 文档为输入,将其建模为 XML IDREF 图,然后返回符合定义的答案。整个过程包含预处理和运行时处理两个主要部分:
- 预处理 :
- 生成 XML IDREF 图。
- 进行索引操作。
- 运行时处理 :
- 查找潜在的中心节点。
- 确定真正的中心节点。
- 回溯匹配节点并查找连接节点。
2.2 方法特性
此方法具备三个主要特性:
- 重复感知 :认识到 XML 文档中存在对象重复问题,通过将 XML 文档建模
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



