网上有很多类似“百度狗” 的元搜索引擎,他们抓取百度和google的搜索结果,然后合并在一个网页里。
且不说这样做有什么意义,但是这的确是一件好玩的事,自己想了一下原理,写了这样一个类,可以抓取百度里的搜索结果。
原理很简单:
通过搜索关键和页码字进入百度,例如“http://www.baidu.com/s?wd=搜索关键字&pn=页码(这里的页码计算公式是:10*(页码-1))
找到真正有用的那一行,把信息读出来,
按照每一个项的特点把他们切开,例如URL前面都有“class=f”……
然后存起来
下面是代码:
<img src ="aggbug/1650307.aspx" width = "1" height = "1" />
抓取百度搜索结果——解密百度狗
自制元搜索引擎
最新推荐文章于 2024-12-05 21:42:04 发布
本文介绍了一种简单的元搜索引擎实现方法,该引擎能够抓取并整合百度等搜索引擎的结果。通过构造特定的URL并解析返回的页面内容,实现了搜索结果的抓取与展示。
8972

被折叠的 条评论
为什么被折叠?



