1. 知乎文章图片爬取器之一写在前面
今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度。
找到我们要爬取的页面,我随便选了一个
https://www.zhihu.com/question/292393947

1084个回答,数据量可以说非常小了,就爬取它吧。
2. 知乎文章图片爬取器之一选取操作库和爬取地址
爬取使用requests 存储使用 mongodb 就可以了
爬取地址经过分析之后,找到了一个可以返回json的数据接口

提取链接,看一下各参数的意思,方便我们程序模拟
https://www.zhihu.com/api/v4/questions/292393947/answers?include=data%5B%2A%5D.is_normal%2Cadmin_closed_comment%2Crewa
本文介绍如何使用Python3爬取知乎文章的图片。首先分析爬取目标和接口,接着选择使用requests和mongodb库。通过解码URL获取参数含义,观察下拉加载的偏移量变化。简化后的爬取地址主要包含关键信息。代码实现简洁,目前限制为固定文章,未来将增加用户输入爬取地址、自动获取答案总数和图片下载等功能。
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



