scrapy组件、中间件、spider中类方法from_crawler的作用

最新推荐文章于 2024-09-15 23:03:37 发布

原创最新推荐文章于 2024-09-15 23:03:37 发布 · 6.5k 阅读

16 ·

CC 4.0 BY-SA版权

scrapy框架专栏收录该内容

13 篇文章

订阅专栏

@classmethod
def from_crawler(cls, crawler, *args, **kwargs):
    spider = cls(*args, **kwargs)
    spider._set_crawler(crawler)
    return spider

cls代表这个类，因此，以下是用给定的参数创建了一个cls类的实例spider。参数会经过__init__方法，因为实例需要初始化。

spider = cls(*args, **kwargs)

设置spider实例的crawler属性

spider._set_crawler(crawler)

返回实例

return spider

crawler属性在初始化class后,由类方法 from_crawler设置, 并且链接了本spider实例对应的Crawl对象。Crawler包含了很多项目中的组件,作为单一的入口点 (例如插件,中间件,信号管理器等).可以查看Crawler API

from_crawler用于实例化某个对象（中间件，模块），常常出现在对象的初始化，负责提供crawler.settings

这是一个类方法，scrapy创建spider的时候会调用。调用位置在crawler.py 的类Crawler中。这个方法的源码在上面，我们可以看到，在实例化这个spider以后，这个实例才有的settings和crawler属性，所以在__init__方法中是没法访问这俩属性的。如果非要在__init__方法中使用相关属性，那么只能重写该方法，大家可以尝试写写。

重写这个类方法需要注意的几点：

需要返回一个实例对象
返回实例对象括号里面的参数，是会进入初始化方法__init__的

如：当我们需要通过scrapy crawl spidername -a NAME=VALUE进行传递参数时，需要以下这种写法

class MySpider(scrapy.Spider):

     def __init__(self, parms=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)

但是，当通过命令scrapy crawl spidername -a parms=value的时候，会出现参数传不进来的情况，那是因为继承scrapy.Spider的时候重写了from_crawler类方法了

@classmethod
def from_crawler(cls, crawler):
    settings = crawler.settings
    return cls()

重写时没有将__init__需要的参数传过去，因为scrapy crawl spidername -a parms=value命令会通过from_crawler创建spider，所以需要返回对应的参数给__init__初始化方法

@classmethod
def from_crawler(cls, crawler):
    settings = crawler.settings
    return cls(*args, **kwargs)

欢迎关注公众号：日常bug，每天写至少一篇技术文章，每天进步一点点。