RUN__IT # scrapy改分布式

本文详细介绍如何将Scrapy爬虫改为分布式爬虫,包括修改Spider继承关系、设置redis_key、定义域名范围、配置分布式去重及调度器、设置Redis数据库参数及下载管道等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

scrapy改分布式


1. spider
    1.from scrapy_redis.spiders import RedisSpider
    2.修改继承关系
    3.redis_key = 'api:start_urls'
    4. allow_domains 域名范围
        4.1 allow_domains = [写死的]
        4.2 自动获取

2. setting

    # 1.设置 分布式的 去重组件
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    # 2.设置 分布式的 调度器
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"

    # 3.允许爬虫中途停止 中断
    SCHEDULER_PERSIST = True

    # 4.设置 redis 数据库的端口号 和IP
    REDIS_HOST = '127.0.0.1'
    REDIS_PORT = 6379

    # 5.设置 redis的下载管道
    'scrapy_redis.pipelines.RedisPipeline': 400
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值