
爬虫
文章平均质量分 74
宝宝可乖了
这个作者很懒,什么都没留下…
展开
-
Python爬取知乎回答信息碰到:Max retries exceeded with URL
那天我在爬取知乎图片的时候碰到了这个问题。开始我以为程序逻辑出错了,折腾了很久,知乎现在要爬取回答下面所有信息的话,就得翻页了,而获取翻页以及更多的信息就得考虑异步加载。然后在浏览器里面找到了下一页的url,就也是其中,next就是下一页的url,previous就是上一页的url,total:518是问题下回答的总数。估计知乎对这些url的访问做了限制,虽然我弄了代理,但原创 2017-08-20 13:19:21 · 21376 阅读 · 0 评论 -
Python爬虫对知乎问题下的图片进行爬取
知乎的反爬做得很严格1.翻页信息在首页的url不更新2.要拿到所有图片需要翻页,同时不能用问题首页的url,信息所在如下图,翻页信息,data里面几乎有所有需要的信息3.访问频率限制,这严重影响了爬虫的速度,我多次用try-except做出调整,防止程序崩溃这就是我爬取知乎信息后的一些经验分享,有很多不足,谢谢指正详细思路在代码和注释中:#爬取知乎回答下面照片的爬虫#难点原创 2017-08-20 17:40:33 · 3657 阅读 · 2 评论