首先放上单帖子的抓取
全贴抓取
观察每个帖子数据源的url 不难发现 只有最后的id和page会发生变化
思路:我们只需要获取每个帖子的id 每个帖子的page数 即可
page数 在每个数据源的json中获取
每个帖子的json格式也是相同的
topic 的id 可以参考
并观察动态加载的
python爬虫入门之丁香园
最新推荐文章于 2021-12-01 22:22:29 发布
首先放上单帖子的抓取
全贴抓取
观察每个帖子数据源的url 不难发现 只有最后的id和page会发生变化
思路:我们只需要获取每个帖子的id 每个帖子的page数 即可
page数 在每个数据源的json中获取
每个帖子的json格式也是相同的
topic 的id 可以参考
并观察动态加载的