71、在线搜索中的XML查询与食谱建模分析

最新推荐文章于 2025-11-28 12:26:47 发布

月月光659

最新推荐文章于 2025-11-28 12:26:47 发布

阅读量14

点赞数

CC 4.0 BY-SA版权

分类专栏：迈向有意义的互联网系统文章标签： XML查询 XQuery 食谱建模

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sand8/article/details/154551281

迈向有意义的互联网系统专栏收录该内容

100 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

在线搜索中的XML查询与食谱建模分析

1. 真实世界XML查询分析

在对从互联网抓取的潜在XQuery查询进行处理时，从11,220个潜在查询中收集到了887个有效XQuery查询。将这些查询基于多个因素分为4个类别，这些因素包括文档的下载位置（网页内容或URL）、文档类型（库或查询）以及是否成功下载相关XML文档。

在XPath 2.0与XQuery 1.0的对比方面，过滤掉不包含任何XQuery 2.0语法符号的查询，即XPath 2.0查询和XQuery 1.0查询，剩余的查询数量较少，仅为16个。

对20个XQuery查询和26个引用并下载的XML文档进行了详细分析。逐个运行这些查询并进行修正以获取结果，修正后成功运行了13个查询。其余查询存在诸如缺少模式、未定义前缀、缺少资源等错误。对这13个查询的输出进行分析，发现大部分输出缺少根元素（有5种情况），无法成为格式良好的XML文档；有一个输出仅为文本；4个查询的输出包含来自多个XML文档的数据；有一个输出非常简单，仅包含一个带有文本内容的元素；还有一个查询使用OrderByClause对XML文档进行排序。令人惊讶的是，有一个查询包含使用完整URL指向XML文档的链接，并且该查询能够运行，XQuery处理器会从互联网下载给定的XML文档。

Crawler4j下载了74个XML文档，但过滤掉无效的XQuery查询相关的XML文档后，仅剩下43个。在检查这些剩余的XML文档时，发现了以下错误：
- 8个文档的内容是网页，其中4个是同一网页的重复，另外4个是另一个网页的重复。
- 9个文档的内容是文本文档。

成功修复了一个包含行号的XML文档，并通过替换元素和属性之间

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。