Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy

最新推荐文章于 2024-08-18 23:39:29 发布

梦想橡皮擦

最新推荐文章于 2024-08-18 23:39:29 发布

阅读量2.1w

点赞数 1

CC 4.0 BY-SA版权

分类专栏：爬虫100例教程文章标签：爬虫 python爬虫

梦想橡皮擦-独家版权，禁止转载

本文链接：https://blog.youkuaiyun.com/hihell/article/details/85101324

爬虫100例教程专栏收录该内容

118 篇文章 ¥99.90 ¥299.90

订阅专栏

本篇博客介绍如何使用Python的Scrapy框架爬取知乎全站用户关注名单。首先讲解了爬虫的准备工作，包括设置爬取间隔、UA、启用随机UA中间件等。接着，详细阐述了如何处理HTML+JSON拼接的数据，通过正则匹配和JSON解析获取所需信息。最后，提到了URL去重和数据存储的方法。

爬前叨叨

全站爬虫有时候做起来其实比较容易，因为规则相对容易建立起来，只需要做好反爬就可以了，今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说，使用scrapy确实用了牛刀，不过毕竟本博客这个系列到这个阶段需要不断使用scrapy进行过度，so，我写了一会就写完了。

你第一步找一个爬取种子，算作爬虫入口

https://www.zhihu.com/people/zhang-jia-wei/following

我们需要的信息如下，所有的框图都是我们需要的信息。

在这里插入图片描述

获取用户关注名单

通过如下代码获取网页返回数据，会发现数据是由HTML+JSON拼接而成，增加了很多解析成本

class ZhihuSpider(scrapy.Spider)

了解本专栏

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

梦想橡皮擦 如有帮助，来瓶可乐

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。