大型 XML 文档的高效碎片化
在处理大型 XML 文档时,碎片化是一项关键技术,它能提高数据处理的效率和灵活性。本文将详细介绍一种名为 SimpleX 的启发式方法以及相关的结构直方图,用于实现 XML 文档的高效碎片化,并通过实验验证其有效性。
1. SimpleX 启发式方法
碎片化问题本质上是一个具有线性成本函数和整数约束的指数级问题。为了有效探索搜索空间,我们设计了 SimpleX 启发式方法,这是一组简单的自顶向下的文档碎片化策略。
-
工作流程 :
- 从文档的根节点开始,以自顶向下的方式进行处理。
- 在每一步,检查当前子树的宽度、深度和大小是否满足约束条件 w、d、s。
- 如果满足约束条件,该子树成为一个有效的片段,并从文档中修剪出来,形成一个单独的有效 XML 文档。同时,用一个新节点替换原文档中的该子树,新节点的 PC - 数据为所获得片段的路径表达式。
- 如果不满足约束条件,算法根据启发式评估的标准检查 XML 树中的下一个子树。
-
子树选择标准 :
- 选择下一个子树的一个标准是访问顺序,即深度优先或广度优先。我们分别称这些变体为 in - depth 和 in - width。
以下是一个符合 XMark DTD 的 XML 树示例,其各子树的大小如下表所示:
| Node | Si
超级会员免费看
订阅专栏 解锁全文
24

被折叠的 条评论
为什么被折叠?



