54、大规模 Web 服务搜索：从发现到优化

最新推荐文章于 2025-10-02 22:42:26 发布

kotlin6android

最新推荐文章于 2025-10-02 22:42:26 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：面向服务计算的前沿探索与实践文章标签： Web服务搜索 WSDL RESTful

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/kotlin6android/article/details/149621886

面向服务计算的前沿探索与实践专栏收录该内容

79 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大规模 Web 服务搜索：从发现到优化

1. 引言

如今，网络正从数据网络向服务网络转变。Web 服务技术使各种功能得以灵活暴露和使用，可集成到传统软件系统和网页中，为业务逻辑的互操作性提供了新基础。大多数 Web 服务通过 WSDL 或 RESTful 方法发布。

早期，UDDI 被提出用于发布和搜索服务，但未在公开可用的 Web 服务领域广泛应用。如今，Web 服务常注册在特定门户（如 XMethods 或 ProgrammableWeb）或直接放在网络上，并配有描述服务功能的网页。目前搜索服务主要有两种方式：通过特定门户的搜索功能或使用标准搜索引擎和关键词搜索，但这些方法存在数据过时或缺失等问题。

本文介绍的方法可发现公开可用的 WSDL 和 RESTful Web 服务，通过聚焦网络爬虫、识别相关文档并聚合信息进行轻量级服务注释。使用该方法收集到了大量（截至 2009 年 6 月，约 8000 个提供商的 28000 多个服务）WSDL Web 服务。

2. 网络服务爬虫策略

搜索引擎的成功依赖于高效的爬虫解决方案。爬虫利用网页间的超链接，从初始页面（种子）开始发现更多 URL。未访问的 URL 构成爬虫的前沿，分布在多个队列中。爬虫的范围和优先级分配是构建聚焦爬虫的关键。本文的 Web 服务爬虫基于开源爬虫 Heritrix，聚焦于 WSDL 文件、相关文档和描述 Web API 的网页。

2.1 WSDL 爬虫策略

种子选择 ：种子 URL 对爬虫成功至关重要，通过半自动过程收集，包括筛选知名网站和选择先前爬虫的 URL。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。