在线搜索中的XML查询与食谱建模分析
1. 真实世界XML查询分析
在对从互联网抓取的潜在XQuery查询进行处理时,从11,220个潜在查询中收集到了887个有效XQuery查询。将这些查询基于多个因素分为4个类别,这些因素包括文档的下载位置(网页内容或URL)、文档类型(库或查询)以及是否成功下载相关XML文档。
在XPath 2.0与XQuery 1.0的对比方面,过滤掉不包含任何XQuery 2.0语法符号的查询,即XPath 2.0查询和XQuery 1.0查询,剩余的查询数量较少,仅为16个。
对20个XQuery查询和26个引用并下载的XML文档进行了详细分析。逐个运行这些查询并进行修正以获取结果,修正后成功运行了13个查询。其余查询存在诸如缺少模式、未定义前缀、缺少资源等错误。对这13个查询的输出进行分析,发现大部分输出缺少根元素(有5种情况),无法成为格式良好的XML文档;有一个输出仅为文本;4个查询的输出包含来自多个XML文档的数据;有一个输出非常简单,仅包含一个带有文本内容的元素;还有一个查询使用OrderByClause对XML文档进行排序。令人惊讶的是,有一个查询包含使用完整URL指向XML文档的链接,并且该查询能够运行,XQuery处理器会从互联网下载给定的XML文档。
Crawler4j下载了74个XML文档,但过滤掉无效的XQuery查询相关的XML文档后,仅剩下43个。在检查这些剩余的XML文档时,发现了以下错误:
- 8个文档的内容是网页,其中4个是同一网页的重复,另外4个是另一个网页的重复。
- 9个文档的内容是文本文档。
成功修复了一个包含行号的XML文档,并通过替换元素和属性之间
超级会员免费看
订阅专栏 解锁全文
878

被折叠的 条评论
为什么被折叠?



