scrapy-redis简单配置详解

最新推荐文章于 2023-11-14 11:28:22 发布

原创

最新推荐文章于 2023-11-14 11:28:22 发布 · 1.9k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python3爬虫 #scrapy-redis使用 #scrapy-redis参数设置 #scrapy #redis

注意：

该篇文章为转载内容，此处只是为了巩固一下scrapy-redis的注意事项，scrapy-redis 现已在公司项目中稳稳当当的运行了，

可以查看该篇文章：

http://xudailong.gitee.io/2018/01/09/python_crawl_words/

由于Scrapy_redis已经为封装了大部分的流程，所以使用它不会有任何难度。

1.启动Redis

首先需要把Redis启动起来。使用Mac OS/Linux的同学在终端下面输入以下命令并回车：

redis-server

使用Windows的同学，在CMD中cd进入存放Redis的文件夹，并运行：

redis-server.exe

2.修改爬虫

在前面的课程中，我们爬虫是继承自scrapy.Spider这个父类。这是Scrapy里面最基本的一个爬虫类，只能实现基本的爬虫功能。现在需要把它替换掉，从而实现更高级的功能。

请对比一下下面这段使用了Scrapy_redis的代码与前面read color网站爬虫的代码头部有什么不同：

from scrapy_redis.spiders 
import RedisSpider
class ReadColorSpider(RedisSpider):    
    name = "readcolorspider"    
    redis_key = 'rea

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xudailong_blog

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Scrapy-Redis爬虫分布式策略：轻松实现高效分布式爬取

专注于Python爬虫开发，分享爬虫技巧、项目实战与反爬经验，使用Scrapy、BeautifulSoup等工具，解决数据抓取难题。

06-20

258

Scrapy-Redis是Scrapy框架的分布式扩展，通过结合Redis数据库实现爬虫任务的分布式调度与数据共享。它将爬取请求存入Redis队列，多个爬虫节点从中获取任务，利用Redis集合实现URL去重，并通过Redis存储爬取结果。搭建时需安装Scrapy-Redis和Redis服务，配置调度器、去重机制和Redis连接。启动多个爬虫实例后，它们会共享任务队列自动均衡负载。该架构具有高效调度、自动去重、易于扩展和高可用性等优势，适合大规模数据爬取场景，能显著提升爬虫性能和抗压能力。

Scrapy-Redis原理和源码解析

最新发布

2302_81214177的博客

05-22

845

1.爬取队列的实现：提供了三种队列，使用redis的列表或者有序集合来维护。2.去重的实现：使用redis的集合来保存request指纹，以实现重复过滤。3.中断后重新爬取的实现：中断后的redis队列并没有清空，再次启动时调度器的会从队列中取到下一个request，继续爬取。Redis Queue（队列）：在Scrapy-Redis中，请求是储存在Redis的队列中的。每当Spider产生新的请求时，它们被添加到队列里。每当需要新的请求去下载时，就会从队列里取出。

1 条评论您还未登录，请先登录后发表或查看评论

scrapy-redis(七)：部署scrapy

hjhmpl123的博客

12-27

4259

一般我们写好scrapy爬虫，如果需要启动的话，需要进入scrapy项目的根目录，然后运行以下命令：scrapy crawl {spidername}这样我们就可以在终端查看到爬虫信息了。但爬虫运行状态还需要给上级领导看，或者自己有空的时候就看看，总不可能想看的时候就登录服务器。下面就给大家介绍scrapy官方推荐的部署爬虫项目的方法。需要安装scrapyd和scrapyd-client对于sc

scrapy_redis配置

qq_64075230的博客

12-06

591

scrapy_redis服务

基于scrapy-redis的分布式爬虫的配置

m0_52585291的博客

07-14

886

Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫，就需要借助一个组件叫做Scrapy-Redis，这个组件正是利用了Redis可以分布式的功能，集成到Scrapy框架中，使得爬虫可以进行分布式。利用Redis数据库实现分布式爬取，基本思想是将Scrapy爬虫的请求都放到Redis Queue中，所有的爬虫也都从指定的Redis Queue中获取请求，Scrapy-Redis组件中默认使用SpiderPriorityQueue来确定获取的先后次序，待爬取评论页面的参数队列的共享是爬虫

scrapy-redis的关键配置

热门推荐

东方佑

12-19

3万+

settings中的配置 DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter” SCHEDULER = “scrapy_redis.scheduler.Scheduler” SCHEDULER_PERSIST = True REDIS_HOST=‘192.168.72.137’ REDIS_PORT=6379 REDIS_PASSWO...

基于Scrapy-redis的分布式爬虫Web平台

05-07

**基于Scrapy-Redis的分布式爬虫Web平台详解** 在现代大数据时代，网络信息量呈爆炸性增长，单个爬虫处理数据的速度往往无法满足需求。此时，分布式爬虫技术应运而生，通过多台机器协同工作，提高了数据抓取的效率...

scrapy-redis源码分析之发送POST请求详解

01-20

Scrapy-Redis会从配置好的Redis数据库中读取起始URL，而不是从`start_requests`方法生成请求。源码分析： Scrapy-Redis的Spider类不直接继承自Scrapy的Spider类，而是继承自`RedisSpider`。`RedisSpider`类并没有...

Scrapy-redis 源码分析及框架使用

墨鱼菜鸡

07-11

683

From：https://blog.youkuaiyun.com/weixin_37947156/article/details/75044971 From：https://cuiqingcai.com/6058.html Scrapy-redis github：https://github.com/rmax/scrapy-redis scrapy-redis分布...

scrapy-redis配置

weixin_38859557的博客

01-15

660

1：在settings里面配置 2：下载scrapy-redis源码：粘贴到与scrapy。cfgt同目录下同时在settings里面还可以配置redis的host和port以及password 同时在spider中：需要让spider继承RedisSpider，而不是之前的scrapy的spider 同时还需要一个redis_key : 同时 start...

scrapy redis配置文件setting参数详解

01-21

scrapy项目 setting.py #Resis 设置 #使能Redis调度器 SCHEDULER = 'scrapy_redis.scheduler.Scheduler' #所有spider通过redis使用同一个去重过滤器 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' #不清除Redis队列、这样可以暂停/恢复爬取 #SCHEDULER_PERSIST = True #SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列，优先级队列 #

scrapy_redis的设置

weixin_42958164的博客

08-29

336

spiders的xxxx.py中在导入此包 from scrapy_redis.spiders import RedisSpider 修改如下代码设置redis的键 #删除start_urls #start_urls = ['http://python.jobbole.com/all-posts/'] redis_key = 'lhy:rediskey' 在settings文件中加入 S...

scrapy_redis参数的具体配置

之度的博客

03-11

1331

常用的是爬完是否清空 scrapy-redis项目配置 - 王大拿 - 博客园 SCHEDULER_PERSIST = True # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空 SCHEDULER_FLUSH_ON_START = False # 是否在开始之前清空调度器和去重记录，True=清空，False=不清空 ...

scrapy_redis项目配置

weixin_30429201的博客

03-02

153

一、创建普通scrapy项目二、spiders爬虫文件中修改项 1 import scrapy 2 from XX.items import XXItem 3 import json 4 # ----1 导入类 5 from scrapy_redis.spiders import RedisSpider 6 7 8 # ----2 修改类的继承 ...

scrapy的redis安装和配置

上海菁数信息技术

04-19

4357

在定向爬虫的制作过程中，使用分布式爬取技术可以显著提高爬取效率。而 Redis 配合 Scrapy 是实现分布式爬取的基础。 Redis 是一个高性能的 Key-Value 数据库，它把数据保存在内存里。因此可以有非常快的数据读写速度。 scrapy-redis 的安装 pip install scrapy-redis easy_install scrapy-redis 下载 ht

【Python爬虫】Python3.8分布式爬虫scrapy-redis的搭建与运行（较为全面）

weixin_63133658的博客

11-14

3263

分布式爬虫scrapy-redis的搭建与运行

scrapy-redis

qq_44744457的博客

04-15

192

【代码】scrapy-redis。

scrapy redis 配置文件setting参数详解

spider

07-23

1018

#Resis 设置 #使能Redis调度器 SCHEDULER = 'scrapy_redis.scheduler.Scheduler' #所有spider通过redis使用同一个去重过滤器 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' #不清除Redis队列、这样可以暂停/恢复爬取 #SCHEDULER_PERSIST = True #SCHEDULER_QUEUE_CLASS ='scrapy_redis.queu

Scrapy-Redis分布式爬虫搭建详解及原理

首先，文章强调了Scrapy-redis的环境配置，包括操作系统（Windows 7）、Scrapy-redis版本（可能是最新的3.0.5版本）以及Python版本（3.6.1）。这些是基础配置，确保软件环境兼容是进行分布式爬虫开发的前提。文章...