scrapyItemPipeline

最新推荐文章于 2023-11-23 09:54:38 发布

原创最新推荐文章于 2023-11-23 09:54:38 发布

· 6.9w 阅读

0 ·

版权

文章标签：

#爬虫 #大数据 #python

python 同时被 3 个专栏收录

34 篇文章

订阅专栏

爬虫

24 篇文章

订阅专栏

scrapy

13 篇文章

订阅专栏

Scrapy的ItemPipeline组件在Item被Spider捕获后进行处理，如清理HTML、验证数据、查重和存储到数据库。每个Pipeline需实现`process_item()`方法，处理后的Item按数字顺序通过pipeline。启用Pipeline需在`ITEM_PIPELINES`配置中指定，数值决定处理顺序。此外，`open_spider()`在Spider启动时调用，`close_spider()`在Spider关闭时调用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scrapy框架-ItemPipeline

调用时间：当Item在Spider中被收集之后，它将会被传递到Item Pipeline，一些组件会按照一定的顺序执行对Item的处理。

功能:

清理HTML数据
验证爬取的数据(检查item包含某些字段)
查重(并丢弃)
将爬取结果保存到数据库中

一、一个自己的Pipeline类

必须实现以下方法：

process_item(self, item**,** spider**)**
- 每个item pipeline组件都需要调用该方法，这个方法必须返回一个具有数据的dict，或是 Item(或任何继承类)对象，或是抛出 DropItem 异常，被丢弃的item将不会被之后的pipeline组件所处理。
- 参数:
  - item （Item 对象或者一个dict) – 被爬取的item
  - spider (Spider 对象) – 爬取该item的spider
open_spider(self, spider)

当spider被开启时，这个方法被调用。参数:spider (Spider对象) – 被开启的spider
from_crawler(cls,crawler)

如果存在，则调用该类方法以从中创建管道实例Crawler。它必须返回管道的新实例。搜寻器对象提供对所有Scrapy核心组件（如设置和信号）的访问；这是管道访问它们并将其功能挂钩到Scrapy中的一种方法。

close_spider(self, spider)

当spider被关闭时，这个方法被调用参数:spider (Spider对象) – 被关闭的spider

二、启用一个Item Pipeline组件

为了启用一个Item Pipeline组件，你必须将它的类添加到 ITEM_PIPELINES 配置，就像下面这个例子:

ITEM_PIPELINES = {
    'myproject.pipelines.PricePipeline': 300,
    'myproject.pipelines.JsonWriterPipeline': 800,
}

分配给每个类的整型值，确定了他们运行的顺序，item按数字从低到高的顺序，通过pipeline，通常将这些数字定义在0-1000范围内。