scrapy框架--管道类过滤项目相同ID部分

转载于 2018-11-07 15:49:20 发布 · 431 阅读

本文介绍了一种在Scrapy框架中实现的去重机制——DuplicatesPipeline。通过此Pipeline，可以有效避免爬虫抓取重复数据，确保每个项目的唯一性。当项目具有相同的ID时，该Pipeline将拦截并丢弃重复项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

复制过滤器

用于查找重复项目并删除已处理的项目的过滤器。假设我们的项目具有唯一的ID，但是我们的蜘蛛会返回具有相同id的多个项目：

from scrapy.exceptions import DropItem

class DuplicatesPipeline(object):

    def __init__(self):
        self.ids_seen = set()

    def process_item(self, item, spider):
        if item['id'] in self.ids_seen:
            抛出、返回
            raise DropItem("Duplicate item found: %s" % item)
        else:
            self.ids_seen.add(item['id'])
            return item

链接：https://www.jianshu.com/p/8d65da080c47