Scrapy框架扩展机制深度解析-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00293/article/details/148324537

Scrapy框架扩展机制深度解析

scrapy Scrapy, a fast high-level web crawling & scraping framework for Python. 项目地址: https://gitcode.com/gh_mirrors/sc/scrapy

什么是Scrapy扩展

Scrapy扩展是一种特殊组件，它允许开发者向Scrapy框架注入自定义功能。与其他组件不同，扩展没有特定的角色定位，更像是Scrapy中的"万能组件"，可以用来实现那些不符合其他组件类型职责的功能。

扩展的加载与激活机制

Scrapy扩展在爬虫启动时加载，每个运行的爬虫都会创建扩展类的一个实例。要启用扩展，需要将其添加到EXTENSIONS设置中。例如：

EXTENSIONS = {
    "scrapy.extensions.corestats.CoreStats": 500,
    "scrapy.extensions.telnet.TelnetConsole": 500,
}

Scrapy会合并EXTENSIONS和EXTENSIONS_BASE设置，并根据优先级决定加载顺序。由于扩展通常不相互依赖，它们的加载顺序在大多数情况下并不重要。

如何编写自定义扩展

每个扩展本质上都是一个组件，通常通过连接信号并执行信号触发的任务来实现功能。

扩展开发示例

下面是一个简单的扩展实现，它会在以下情况下记录日志：

爬虫打开时
爬虫关闭时
抓取特定数量的项目时

import logging
from scrapy import signals
from scrapy.exceptions import NotConfigured

logger = logging.getLogger(__name__)

class SpiderOpenCloseLogging:
    def __init__(self, item_count):
        self.item_count = item_count
        self.items_scraped = 0

    @classmethod
    def from_crawler(cls, crawler):
        if not crawler.settings.getbool("MYEXT_ENABLED"):
            raise NotConfigured

        item_count = crawler.settings.getint("MYEXT_ITEMCOUNT", 1000)
        ext = cls(item_count)

        crawler.signals.connect(ext.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(ext.spider_closed, signal=signals.spider_closed)
        crawler.signals.connect(ext.item_scraped, signal=signals.item_scraped)

        return ext

    def spider_opened(self, spider):
        logger.info("opened spider %s", spider.name)

    def spider_closed(self, spider):
        logger.info("closed spider %s", spider.name)

    def item_scraped(self, item, spider):
        self.items_scraped += 1
        if self.items_scraped % self.item_count == 0:
            logger.info("scraped %d items", self.items_scraped)

这个扩展可以通过MYEXT_ENABLED设置启用，并通过MYEXT_ITEMCOUNT设置指定项目数量。