多搜索应用:结构化数据格式导入与雅虎搜索集成
1. 结构化数据格式导入
标准的网页浏览器能够使用任何 URL 建立 HTTP 连接并检索数据。传统上,这是通过页面刷新来完成的,而最近,Ajax 技术则通过 JavaScript 代码异步加载数据。虽然浏览器能很好地渲染 HTML 格式的数据,但这并不是浏览器能获取的唯一数据类型。
HTML 本身并没有问题,它是一种简单的文本格式化方式。但对于我们的应用程序来说,获取 HTML 数据并不符合聚合器的定义。如果从每个搜索引擎获取 HTML 结果,我们可能可以将这些结果作为 HTML 片段显示在页面上,甚至可以将它们显示在框架中。然而,这对用户来说并不理想,因为这不是一个统一的界面。用户会面临与直接访问每个搜索引擎时相同的问题,搜索结果的格式会不同,用户需要学习在哪里查找信息。
另一种方法是解析 HTML 以提取数据并以我们自己的格式使用。但这样做存在三个问题:
1. GWT 没有自带 HTML 解析器。
2. 我们不知道在哪里查找数据。HTML 的结构不够好,也不是自描述性的,很难理解某些文本的含义。
3. HTML 中的数据可能会因为网页设计的小改动或使用不同的浏览器而改变位置。
幸运的是,有另外两种 GWT 能理解、在网络上常见且结构良好的数据格式:XML 和 JSON。我们可以利用浏览器从 URL 检索数据的能力来获取 XML 或 JSON 数据。大多数 Web 服务和搜索引擎以 XML 格式提供数据,提供 JSON 格式的相对较少。本应用将使用 JSON。要理解为什么需要使用 JSON,我们需要了解浏览器的同源策略。
超级会员免费看
订阅专栏 解锁全文
58

被折叠的 条评论
为什么被折叠?



