抓过google的数据没?

因为想尝试一下从搜索结果抓点结果,别的搜索引擎都搞定了。想抓点google的数据,我配置了一下午,还是搞不定。我不懂xpath,也不懂网络爬虫,对我来说,内部的东西我不懂,我就像苍蝇一样,到处乱撞。因为这个也被鄙视N多次吧。

google的数据,爬虫是爬下来了,但是模板配置只要中间的搜索结果,我按照xpath的配置来走,怎么配置都找不到东西,连title都找不到。后来找来高手,调了半天,用firebug看看xpath的配置也没问题的。后来debug,发现通过xpath配置文件后,得到的东西是空的。而从最底层一个一个往上找,发现最底层上一次就找不到。于是,到爬虫得到的粗糙结果中去找底层上一层的xpath路径,发现没有。可把通过firebug直接得到的html拷贝代替爬虫爬下来的内容,就找到了。这个时候才发现,原来从google上爬数据时,得到的html文件和用firebug看到的结构是不一样的。


我在对baidu,soso等搜索引擎进行配置时都是通过firebug直接进行的,测试得到的结果也是对的,即firebug看到的html结果和爬虫得到的html都一样。而google却不一样。


因为爬虫得到的html文件太乱,所以不想直接从这里看结构进行配置。没想到却出了这个插曲。google为什么这么干?????


不知道是不是最近在做的东西更接近基本的网络,全是OS操作的东西,所以感觉最近特别笨,老出差子。还是因为女人怀孕傻一年?



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值