scrapy_redis笔记

最新推荐文章于 2025-08-12 00:52:09 发布

原创最新推荐文章于 2025-08-12 00:52:09 发布 · 167 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #python

爬虫专栏收录该内容

5 篇文章

订阅专栏

本文介绍Scrapy-Redis组件如何实现增量式与分布式爬虫功能。增量式爬虫通过Redis实现调度器队列和指纹集合，确保请求持久化；分布式爬虫则利用Redis共享数据，使得多台计算机能够协同工作。文中详细说明了Scrapy-Redis的工作流程及其配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scrapy_redis

介绍

scarpy_redis,是scrapy的一个组件,实现增量式爬虫与分布式爬虫。

增量式爬虫：通过redis实现调度器的队列和指纹集合，判断dont_filter和requests对象决定请求持久化，持续发起请求。
分布式爬虫：通过redis共享数据，多台计算机发起爬虫。
redis指纹集合通过哈希关系映射数据集合实现数据的去重。

scrapy_redis流程

在这里插入图片描述
流程：

带抓取的对象和去重的指纹都存在所有服务器的公用redis中
所有服务器公用一个redis中request对象
所有request对象存入redis前，会在同一个redis中进行判断之前是否存入过
默认情况下所有数据保存在redis中

增量式爬虫

实现方式：
在settings.py中增加代码：

# 指定了去重的类
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 指定了调度器的类
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 调度器的内容是否持久化
SCHEDULER_PERSIST = True

# redis的url
REDIS_URL = "redis://127.0.0.1:6379"

# 如果数据需要保存到redis中，选配的
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400,
}