探索Silverlight网络编程:从HTML抓取到简单Web服务
在网络编程的世界里,获取和处理网页内容是一项常见且重要的任务。Silverlight为我们提供了强大的工具,让我们能够轻松地下载和解析网页内容。本文将深入探讨如何使用Silverlight进行HTML抓取以及消费简单的Web服务。
1. 服务器端代理与内容下载
创建服务器端代理需要更多的工作,但如果只是偶尔获取少量信息,这是一个可以接受的解决方案。然而,如果需要频繁调用Web服务,例如读取不允许跨域访问的服务器上的RSS新闻项,开销会迅速增加。因为每次调用都要经历两次延迟:首先是网页向Web服务发出请求,然后是Web服务向第三方网站发出请求。
了解了访问网站的规则后,就可以开始下载内容了。我们从最基本的普通HTML文件开始。
2. HTML抓取
从网页中获取信息的一种简单但不太可靠的方法是直接解析HTML页面的原始标记。这种方法很脆弱,因为如果页面结构发生变化,代码对页面结构的假设很容易被打破。但在某些情况下,HTML抓取是唯一的选择。例如,在亚马逊和eBay等网站提供Web服务之前,开发人员经常使用屏幕抓取技术来获取价格细节、销售排名、产品图片等信息。
下面是一个示例,展示了如何通过HTML屏幕抓取从一个包含世界历史人口数据的表格中提取信息。表格结构如下:
<table>
<tr>
<th>Year</th>
<th width="70">World</th>
</tr&
超级会员免费看
订阅专栏 解锁全文
1145

被折叠的 条评论
为什么被折叠?



