【Python】知乎网全站用户爬虫 scrapy

最新推荐文章于 2024-01-10 10:55:16 发布

追梦IT男

最新推荐文章于 2024-01-10 10:55:16 发布

阅读量357

点赞数

CC 4.0 BY-SA版权

文章标签： Python 爬虫

本文链接：https://blog.youkuaiyun.com/wcg541/article/details/97262128

全站爬虫有时候做起来其实比较容易，因为规则相对容易建立起来，只需要做好反爬就可以了，今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说，使用scrapy确实用了牛刀，不过毕竟这个系列到这个阶段需要不断使用scrapy进行过度，so，我写了一会就写完了。

你第一步找一个爬取种子，算作爬虫入口

https://www.zhihu.com/people/zhang-jia-wei/following

我们需要的信息如下，所有的框图都是我们需要的信息。

获取用户关注名单

通过如下代码获取网页返回数据，会发现数据是由HTML+JSON拼接而成，增加了很多解析成本

class ZhihuSpider(scrapy.Spider):
    name = 'Zhihu'
    allowed_domains = ['www.zhihu.com']
    start_urls = ['https://www.zhihu.com/people/zhang-jia-wei/following']

    def parse(self, response):
        all_data = response.body_as_unicode()
        print(all_data)

首先配置一下基本的环境，比如间隔秒数，爬取的UA，是否存储cookies,启用随机UA的中间件DOWNLOADER_MIDDLEWARES

middlewares.py 文件