爬虫第十一课---scrapy_redis的使用以及爬取boss直聘代码

最新推荐文章于 2025-09-06 16:13:46 发布

韩淼燃

最新推荐文章于 2025-09-06 16:13:46 发布

阅读量635

点赞数

CC 4.0 BY-SA版权

分类专栏： python怕虫项目课程文章标签： python boss 爬取

本文链接：https://blog.youkuaiyun.com/weixin_36691991/article/details/93136454

python怕虫项目课程专栏收录该内容

18 篇文章 ¥39.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何利用Python的scrapy_redis框架爬取boss直聘网站的数据，包括设置爬虫项目、配置redis、实现中间件和调度器，以及具体的爬取过程。通过实例展示了scrapy_redis在分布式爬虫中的应用。

'''
scrapy_redis

request请求的共享
我们使用基于内存存储的redis数据库处理，解决request请求调度的问题

url去重

scrapy_redis提供的组件
Schedule  dupefilter  Pipeline Spider

Request队列 Schedule

安装 pip install scrapy_redis

实现步骤
修改原来的父类，继承RedisSpider
修改settings 里面的配置
启动之后，往redis_key里面添加url就可以了


原spider修改成scrapy_redis

配置中修改：
去重：DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

调度器： SCHEDULER = "scrapy_redis.scheduler.Scheduler"

保持队列，允许暂停和恢复：SCHEDLER_PERSIST = True

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline':400,
}

redis配置
REDIS_HOST = '127.0.0.1'
REDIS_POST = 6379

spider中修改类：
from scrapy_redis.spiders import RedisSpider

继承RedisSpider

添加字段 redis_key = '爬虫名称:start_url'


强烈建议：不要把数据存储到redis中
'''