scrapy组件、中间件、spider中类方法from_crawler的作用

 

@classmethod
def from_crawler(cls, crawler, *args, **kwargs):
    spider = cls(*args, **kwargs)
    spider._set_crawler(crawler)
    return spider
  • cls代表这个类,因此,以下是用给定的参数创建了一个cls类的实例spider。参数会经过__init__方法,因为实例需要初始化。
spider = cls(*args, **kwargs)
  • 设置spider实例的crawler属性
spider._set_crawler(crawler)
  • 返回实例
return spider

 

crawler属性在初始化class后,由类方法 from_crawler设置, 并且链接了本spider实例对应的Crawl对象。Crawler包含了很多项目中的组件,作为单一的入口点 (例如插件,中间件,信号管理器等).可以查看Crawler API

 

from_crawler用于实例化某个对象(中间件,模块),常常出现在对象的初始化,负责提供crawler.settings

这是一个类方法,scrapy创建spider的时候会调用。调用位置在crawler.py 的类Crawler中。这个方法的源码在上面,我们可以看到,在实例化这个spider以后,这个实例才有的settings和crawler属性,所以在__init__方法中是没法访问这俩属性的。如果非要在__init__方法中使用相关属性,那么只能重写该方法,大家可以尝试写写。

重写这个类方法需要注意的几点:

  • 需要返回一个实例对象
  • 返回实例对象括号里面的参数,是会进入初始化方法__init__的

如:当我们需要通过scrapy crawl spidername -a NAME=VALUE进行传递参数时,需要以下这种写法

class MySpider(scrapy.Spider):

     def __init__(self, parms=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)

但是,当通过命令scrapy crawl spidername -a parms=value的时候,会出现参数传不进来的情况,那是因为继承scrapy.Spider的时候重写了from_crawler类方法了

@classmethod
def from_crawler(cls, crawler):
    settings = crawler.settings
    return cls()

重写时没有将__init__需要的参数传过去,因为scrapy crawl spidername -a parms=value命令会通过from_crawler创建spider,所以需要返回对应的参数给__init__初始化方法

@classmethod
def from_crawler(cls, crawler):
    settings = crawler.settings
    return cls(*args, **kwargs)

 

欢迎关注公众号:日常bug,每天写至少一篇技术文章,每天进步一点点。

### 启用和配置 Scrapy 中间件的方法 在 Scrapy 框架中,中间件是一种强大的工具,可以用来修改请求或响应的行为。要启用并配置中间件,可以通过 `settings.py` 文件中的特定字典完成。 #### 配置下载器中间件 (Downloader Middlewares) 下载器中间件允许开发者拦截和修改发送给目标服务器的请求以及接收到的响应数据。要在项目中启用自定义的下载器中间件,需编辑项目的 `settings.py` 文件,在其中添加如下内容: ```python DOWNLOADER_MIDDLEWARES = { 'myproject.middlewares.CustomDownloaderMiddleware': 543, } ``` 上述代码片段展示了如何通过指定中间件类路径及其优先级数值来激活某个下载器中间件[^4]。这里的 `'myproject.middlewares.CustomDownloaderMiddleware'` 是中间件的具体实现位置,而数字 `543` 则表示该中间件的执行顺序权重值越低,则其优先级越高。 #### Spider 中间件的初始化与日志控制 对于 Spider 中间件而言,除了简单的注册之外还可以利用 `from_crawler` 类方法进一步定制行为逻辑。例如可以根据当前爬虫实例的相关属性调整内部参数或者加载额外资源等操作。下面给出了一段典型代码示例说明怎样基于传入的 Crawler 对象获取全局设定项进而影响本对象的工作模式: ```python @classmethod def from_crawler(cls, crawler): log_level = crawler.settings.get('LOG_LEVEL', 'INFO') instance = cls() instance.logger.setLevel(log_level) return instance ``` 此部分实现了动态读取配置文件内的 LOG_LEVEL 参数,并将其应用至 logger 的级别设置上[^5]。这样做的好处在于提高了灵活性,使得不同运行环境下能够灵活切换调试信息量大小而不必频繁改动源码本身。 ### 总结 综上所述,无论是哪种类型的中间件都需要先被正确定义好之后再按照既定规则加入到 settings 当前生效列表里才能正常运作起来;与此同时借助于一些高级特性比如依赖注入机制还能让整个过程变得更加智能化自动化从而减少人为失误风险提升开发效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值