Scrapy-Redis之RedisSpider与RedisCrawlSpider

上一章利用scrapy-redis实现京东图书爬虫分布式部署和数据爬取存在重复请求问题。Scrapy-Redis提供RedisSpider与RedisCrawlSpider解决该问题,它们能从Redis列表获取start_urls。本文以当当网图书信息爬取为例,给出这两个Spider的代码示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

RedisSpider代码示例

RedisCrawlSpider代码示例


在上一章《Scrapy-Redis入门实战》中我们利用scrapy-redis实现了京东图书爬虫的分布式部署和数据爬取。但存在以下问题:

每个爬虫实例在启动的时候,都必须从start_urls开始爬取,即每个爬虫实例都会请求start_urls中的地址,属重复请求,浪费系统资源。

为了解决这一问题,Scrapy-Redis提供了RedisSpider与RedisCrawlSpider两个爬虫类,继承自这两个类的Spider在启动的时候能够从指定的Redis列表中去获取start_urls;任意爬虫实例从Redis列表中获取某一 url 时会将其从列表中弹出,因此其他爬虫实例将不能重复读取该 url ;对于那些未从Redis列表获取到初始 url 的爬虫实例将一直处于阻塞状态,直到 start_urls列表中被插入新的起始地址或者Redis的Requests列表中出现待处理的请求。

在这里,我们以爬取当当网图书信息为例对这两个Spider的用法进行简单示例。

settings.py 配置如下:

# -*- coding: utf-8 -*-

BOT_NAME = 'dang_dang'

SPIDER_MODULES = ['dang_dang.spiders']
NEWSPIDER_MODULE = 'dang_dang.spiders'


# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False


######################################################
##############下面是Scrapy-Redis相关配置################
######################################################

# 指定Redis的主机名和端口
REDIS_HOST = 'localhost'
REDIS_PORT = 6379

# 调度器启用Redis存储Requests队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 确保所有的爬虫实例使用Redis进行重复过滤
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 将Requests队列持久化到Redis,可支持暂停或重启爬虫
SCHEDULER_PERSIST = True

# Requests的调度策略,默认优先级队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

# 将爬取到的items保存到Redis 以便进行后续处理
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 300
}

RedisSpider代码示例

# -*- coding: utf-8 -*-
import scrapy
import re
import urllib
from copy import deepcopy
from scrapy_redis.spiders import RedisSpider


class DangdangSpider(RedisSpider):
    name = 'dangdang'
    allowed_domains = ['dangdang.com']
    redis_key = 'dangdang:book'
    pattern = re.compile(r"(http|https)://category.dangdang.com/cp(.*?).html", re.I)

    # def __init__(self, *args, **kwargs):
    #     # 动态定义可爬取的域范围
    #     domain = kwargs.pop('domain', '')
    #     self.allowed_domains = filter(None, domain.split(','))
    #     super(DangdangSpider, self).__init__(*args, **kwargs)

    def parse(self, response):  # 从首页提取图书分类信息
        # 提取一级分类元素
        div_list = response.xpath("//div[@class='con flq_body']/div")
        for div in div_list:
            item = {}
            item["b_cate"] = div.xpath("./dl/dt//text()").extract()
            item["b_cate"] = [i.strip() for i in item["b_cate"] if len(i.strip()) > 0]
            # 提取二级分类元素
            dl_list = div.xpath("./div//dl[@class='inner_dl']")
            for dl in dl_list:
                item["m_cate"] = dl.xpath(".//dt/a/@title").extract_first()
                # 提取三级分类元素
                a_list = dl.xpath("./dd/a")
                for a in a_list:
                    item["s_cate"] = a.xpath("./text()").extract_first()
                    item["s_href"] = a.xpath("./@href").extract_first()
                    if item["s_href"] is not None and self.pattern.match(item["s_href"]) is not None:
                        yield scrapy.Request(item["s_href"], callback=self.parse_book_list,
                                             meta={"item": deepcopy(item)})

    def parse_book_list(self, response):  # 从图书列表页提取数据
        item = response.meta['item']
        li_list = response.xpath("//ul[@class='bigimg']/li")
        for li in li_list:
            item["book_img"] = li.xpath("./a[@class='pic']/img/@src").extract_first()
            if item["book_img"] == "images/model/guan/url_none.png":
                item["book_img"] = li.xpath("./a[@class='pic']/img/@data-original").extract_first()
            item["book_name"] = li.xpath("./p[@class='name']/a/@title").extract_first()
            item["book_desc"] = li.xpath("./p[@class='detail']/text()").extract_first()
            item["book_price"] = li.xpath(".//span[@class='search_now_price']/text()").extract_first()
            item["book_author"] = li.xpath("./p[@class='search_book_author']/span[1]/a/text()").extract_first()
            item["book_publish_date"] = li.xpath("./p[@class='search_book_author']/span[2]/text()").extract_first()
            if item["book_publish_date"] is not None:
                item["book_publish_date"] = item["book_publish_date"].replace('/', '')
            item["book_press"] = li.xpath("./p[@class='search_book_author']/span[3]/a/text()").extract_first()
            yield deepcopy(item)

        # 提取下一页地址
        next_url = response.xpath("//li[@class='next']/a/@href").extract_first()
        if next_url is not None:
            next_url = urllib.parse.urljoin(response.url, next_url)
            yield scrapy.Request(next_url, callback=self.parse_book_list, meta={"item": item})

当Redis 的dangdang:book键所对应的start_urls列表为空时,启动DangdangSpider爬虫会进入到阻塞状态等待列表中被插入数据,控制台提示内容类似下面这样:

2019-05-08 14:02:53 [scrapy.core.engine] INFO: Spider opened
2019-05-08 14:02:53 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2019-05-08 14:02:53 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

此时需要向start_urls列表中插入爬虫的初始爬取地址,向Redis列表中插入数据可使用如下命令:

lpush dangdang:book http://book.dangdang.com/

命令执行完后稍等片刻DangdangSpider便会开始爬取数据,爬取到的数据结构如下图所示:

RedisCrawlSpider代码示例

# -*- coding: utf-8 -*-
import scrapy
import re
import urllib
from copy import deepcopy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy_redis.spiders import RedisCrawlSpider


class DangdangCrawler(RedisCrawlSpider):
    name = 'dangdang2'
    allowed_domains = ['dangdang.com']
    redis_key = 'dangdang:book'
    pattern = re.compile(r"(http|https)://category.dangdang.com/cp(.*?).html", re.I)

    rules = (
        Rule(LinkExtractor(allow=r'(http|https)://category.dangdang.com/cp(.*?).html'), callback='parse_book_list',
             follow=False),
    )

    def parse_book_list(self, response):  # 从图书列表页提取数据
        item = {}
        item['book_list_page'] = response._url
        li_list = response.xpath("//ul[@class='bigimg']/li")
        for li in li_list:
            item["book_img"] = li.xpath("./a[@class='pic']/img/@src").extract_first()
            if item["book_img"] == "images/model/guan/url_none.png":
                item["book_img"] = li.xpath("./a[@class='pic']/img/@data-original").extract_first()
            item["book_name"] = li.xpath("./p[@class='name']/a/@title").extract_first()
            item["book_desc"] = li.xpath("./p[@class='detail']/text()").extract_first()
            item["book_price"] = li.xpath(".//span[@class='search_now_price']/text()").extract_first()
            item["book_author"] = li.xpath("./p[@class='search_book_author']/span[1]/a/text()").extract_first()
            item["book_publish_date"] = li.xpath("./p[@class='search_book_author']/span[2]/text()").extract_first()
            if item["book_publish_date"] is not None:
                item["book_publish_date"] = item["book_publish_date"].replace('/', '')
            item["book_press"] = li.xpath("./p[@class='search_book_author']/span[3]/a/text()").extract_first()
            yield deepcopy(item)

        # 提取下一页地址
        next_url = response.xpath("//li[@class='next']/a/@href").extract_first()
        if next_url is not None:
            next_url = urllib.parse.urljoin(response.url, next_url)
            yield scrapy.Request(next_url, callback=self.parse_book_list)

 与DangdangSpider爬虫类似,DangdangCrawler在获取不到初始爬取地址时也会阻塞在等待状态,当start_urls列表中有地址即开始爬取,爬取到的数据结构如下图所示:

 

### ScrapyScrapy-Redis的功能特性对比 #### 功能差异 Scrapy是一个功能强大的网络爬虫框架,提供了丰富的接口用于开发复杂的网页抓取应用。其核心优势在于高度可定制性和高效的数据提取能力[^2]。 而Scrapy-Redis则是作为Scrapy的一个扩展模块存在,主要增强了Scrapy对于分布式环境的支持。借助于Redis这一高性能键值对存储系统的帮助,Scrapy-Redis可以实现跨多个节点的任务分配和数据共享,从而极大地提高了大规模并行处理的能力[^1]。 具体来说,在任务管理方面: - **Scrapy**: 使用本地内存中的队列来进行请求调度,默认情况下不具备持久化能力和多实例间的协调机制。 - **Scrapy-Redis**: 将待处理URL存入Redis数据库中形成全局统一的队列结构;不同机器上启动的Scrapy进程可以从同一个地方获取新的链接继续执行,即使某个worker失败也不会丢失未完成的工作项[^3]。 关于重复访问控制: - **Scrapy**: 提供了一个内置过滤器来防止同一页面被多次下载,但这仅限于单机版操作内有效。 - **Scrapy-Redis**: 借助Redis集合(set)类型的唯一性特点构建了分布式的去重表,确保在整个集群范围内不会发生冗余请求[^4]。 #### 安装配置 为了使现有的Scrapy项目兼容Scrapy-Redis所提供的新特性,只需要做少量改动即可达成目的。以下是基本步骤概述(假设已安装好Python环境及相关依赖包): 1. 安装`scrapy_redis`库; 2. 修改项目的settings.py文件加入必要的设置参数; 3. 调整spider类定义以继承自特定基类或混合其他辅助工具; 4. 如果有必要的话还可以进一步调整pipeline逻辑以便更好地适应新的架构需求。 ```bash pip install scrapy_redis ``` 接着更新`settings.py`, 添加如下几行代码指定使用Redis作为中间件和服务端点地址等信息: ```python # 启用Redis调度器 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 不清理Redis队列/集 (允许暂停和恢复) SCHEDULER_PERSIST = True # 设置Redis连接参数 REDIS_HOST = 'localhost' REDIS_PORT = 6379 ``` 最后一步是在创建Spider时让其实现方式有所变化,比如采用`RedisMixin`混入模式简化某些场景下的编程复杂度: ```python from scrapy_redis.spiders import RedisCrawlSpider as CrawlSpider, RedisSpider as Spider class MySpider(CrawlSpider): name = 'example.com' allowed_domains = ['example.com'] start_urls = ['http://www.example.com'] rules = ( Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True), ) def parse_item(self, response): self.logger.info('Hi, this is an item page! %s', response.url) item = Item() ... return item ``` 上述例子展示了如何快速地将传统Spiders转换成支持远程协作版本的方法之一——即通过改变父级类别名称达到集成外部服务的效果。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值