python Scrapy进阶(scrapy-redis)

本文介绍了将Scrapy爬虫升级为Scrapy-Redis分布式爬虫的过程,包括理解Scrapy-Redis的工作流程、普通爬虫到分布式爬虫的改写方法,以及安装和设置Scrapy-Redis的步骤。通过Scrapy-Redis,可以利用Redis数据库实现Scrapy的分布式策略,提高爬取效率,并支持主从同步。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scrapy进阶(scrapy-redis)

Scrapy-redis

  • 目标
    1. 了解工作流程
    2. 把普通爬虫改写分布式爬虫
  • Scrapy和Scrapy-redis区别
    • Scrapy爬取效率高,具有高度可定制性,不支持分布式
    • Scrapy-redis基于redis数据库,运行在Scrapy框架上的一个组件,可以让Scrapy支持分布式策略,支持主从同步

Scrapy-redis框架

Scrapy-redis框架图

  • redis存放的内容
  1. 已爬取的数据
  2. 待爬取的request对象(set类型)
  3. 已爬过的request对象(sorted set类型)
  • 安装scrapy-redis框架
    • pip install scrapy_redis

普通爬虫文件改写成分布式爬虫文件

普通爬虫文件

  1. 创建Scrapy项目
  2. 明确爬虫目标 —— start_urls
  3. 保存数据

分布式爬虫文件

  • 改写爬虫文件
    1. 导入模块
    2. 继承类
    3. 把start——urls改为redis_key
    4. 改写settings文件
      # 改写settings文件
      # 去重过滤
      DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" 
      # 指定Scheduler队列
      SCHEDULER = "scrapy_redis.scheduler.Scheduler"
      # 是否在关闭时候保留原来的调度器和去重记录
      SCHEDULER_PERSIST = True
      # 管道
      ITEM_PIPELINES = {
       'example.pipelines.ExamplePipeline': 300,
       'scrapy_redis.pipelines.RedisPipeline': 400,
      }
      
    5. redis里需要lpush key urls
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值