follow大神教程——实践java爬虫之三

转载于 2014-07-02 16:12:00 发布 · 130 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://my.oschina.net/SnifferApache/blog/286381

文章标签：

#java #爬虫 #python

本文介绍了一个使用Python实现的知乎爬虫案例，通过分析知乎探索页面的源代码，利用正则表达式提取问题的标题、描述及答案等内容。文章对比了不同版本的zhihu类设计，展示了如何获取完整的问题回答。

2019独角兽企业重金招聘Python工程师标准>>>

额，看起来可以从http://www.zhihu.com/explore/recommendations一个页面抓取到的源码中用正则匹配出每一个问题的标题、描述、答案三个要素。。。

神奇的zhihu公共类定义了String类型的question，questionDescription，zhihuUrl和ArrayList类型的answer。。。

怪不得和上一篇相比有点不同，对比2、3集中的zhihu类

第2集中，zhihu类的逻辑：

定义成员变量question和url（在Spider的getZhihu方法中直接赋值）；

定义构造方法，初始化数据；

覆写toString方法；

第3集中，zhihu类的逻辑：

定义成员变量，String类型的question，questionDescription，zhihuUrl和ArrayList类型的answer，（初始化属性）；

处理url得到realUrl；

调用SendGet得方法到本页面源码content，匹配出要的信息；

覆写toString方法；

【http://www.zhihu.com/explore/recommendations的源码只能看到第一个回答，本集抓取了每个问题全部答案，并且用answer.size()得到回答的数量，why？

正解：GetRecommendations方法中抓取知乎推荐页面的问题链接url，添加到数组results中，新建zhihuTemp变量的时候将抓取结果传递给zhihu类，接下来由zhihu类负责抓取具体页面的信息，所以（编辑推荐有20个问题，那么就需要访问网页20次，速度也就慢下来了），第3集中zhihu类有了新任务，当然与第2集中的不同啦】

至此，第3集over，其实我的任务并不需要这些。。。

不管怎样

——Next——

转载于:https://my.oschina.net/SnifferApache/blog/286381

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。