将scrapy 爬虫改为 增量式爬虫

本文介绍如何将Scrapy爬虫改为增量式爬虫,通过配置Redis存储请求指纹和数据,实现爬虫效率提升和数据持久化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

将写好scrapy 爬虫改为 增量式爬虫只需要在settings配置文件配置相关参数

1. 爬虫是不用动
2. 修改配置文件
# 2.1  配置去重类: 用于把请求的指纹数据存储到Redis的set集合中
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2.1 配置调度器类: 用于把请求对象序列化为二进制数据, 存储到Redis的zset集合中
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 2.2 配置去重数据和请求数据是否要持久化:
#  True就表示当前程序结束了, 请求和指纹数据依然会保存在Redis数据中
#  False: 程序结束的时候, 就会删除Redis数据中的请求和指纹数据.
SCHEDULER_PERSIST = True
# 2.3(可选) 配置使用Redis管道, 把抓取到的数据存储到Redis数据看中
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400,
}

# 2.4 配置Redis数据库连接
# 2.4.1: 方式1: 分别配置IP和端口号
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

# 2.4.2: 方式2: 配置RedisURL (reids数据库)
REDIS_URL = 'redis://127.0.0.1:6379/2'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值