现实世界 XML 查询分析
1. 引言
如今,可扩展标记语言(XML)应用广泛,从 XML 文档获取数据的常见方式是使用查询语言 XQuery 和 XPath 及其相应的评估器。由于 W3C 规范较为复杂,为优化 XML 查询评估,聚焦最常用的语言结构很有必要。此前已有对现实世界 XML 文档的分析,但尚未有对现实世界 XQuery/XPath 查询的分析。
本次研究旨在抓取现实世界的 XML 查询并进行分析,具体目标包括下载尽可能多的 XQuery 查询以找出常用构造,下载查询中引用的 XML 文档。同时,我们提出了一系列假设:
- 预计只能下载到少量 XQuery 查询和零个 XML 文档。
- 不存在作为其他查询库使用的 XQuery 查询。
- 约一半的 XPath 表达式使用谓词,平均由两步组成,且仅使用缩写类型的轴。
- 除处理时间和日期的函数外,XQuery 1.0 的大多数内置函数都会被使用,最常用的函数可能是 fn:doc。
- 约 10%的查询可能用 XPath 2.0 语言编写,它是 XQuery 1.0 的子集。
- 在 FLWOR 表达式中,FOR 子句的使用频率高于 LET 子句。
- WHERE 和 ORDER BY 子句至少在一半的 FLWOR 表达式中使用。
- 嵌套 FLWOR 不常用。
- 不会找到递归函数。
- 查询中的运算符中,加法和乘法类型出现最多。
2. 相关工作
目前已有一些对现实世界 XML 数据的分析,但对于 XML(或类似)操作,由于收集和分析现实世界操作的复杂性,情况有所不同。有部分关于现实世界 XSL
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



