RUN__IT # scrapy改分布式

原创于 2019-08-28 10:00:50 发布 · 161 阅读

0 ·

CC 4.0 BY-SA版权

python爬虫专栏收录该内容

16 篇文章

订阅专栏

本文详细介绍如何将Scrapy爬虫改为分布式爬虫，包括修改Spider继承关系、设置redis_key、定义域名范围、配置分布式去重及调度器、设置Redis数据库参数及下载管道等关键步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scrapy改分布式


1. spider
    1.from scrapy_redis.spiders import RedisSpider
    2.修改继承关系
    3.redis_key = 'api:start_urls'
    4. allow_domains 域名范围
        4.1 allow_domains = [写死的]
        4.2 自动获取

2. setting

    # 1.设置 分布式的 去重组件
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    # 2.设置 分布式的 调度器
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"

    # 3.允许爬虫中途停止 中断
    SCHEDULER_PERSIST = True

    # 4.设置 redis 数据库的端口号 和IP
    REDIS_HOST = '127.0.0.1'
    REDIS_PORT = 6379

    # 5.设置 redis的下载管道
    'scrapy_redis.pipelines.RedisPipeline': 400