sccrapy 爬虫框架网数据库储存时去重的问题

最新推荐文章于 2025-04-03 11:08:29 发布

转载最新推荐文章于 2025-04-03 11:08:29 发布 · 151 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/gaosai/p/9838740.html

文章标签：

#数据库 #爬虫 #python

本文介绍了一种使用Python Scrapy框架实现的爬虫数据去重方法，通过定义一个Pipeline来检查抓取的每一条数据是否已经存在于集合中，以此避免数据重复。当发现重复数据时，会抛出异常并终止该数据的处理流程。

from scrapy.exceptions import DropItem  #导入异常处理模块


class Baidu03Pipeline(object):
    def __init__(self):          　　#建立构造方法
        self.title = set()       　　#定义集合
    def process_item(self, item, spider):
        title = item['title']    　　#取出要进行判断数据是否重复的字段
        if title in self.title:  　　#如果存在集合中则直接抛出异常，
            raise DropItem('{}已存在'.format(title))  
        self.title.add(title)       #如果数据不重复，则加入集合
        ......                      #插库数据 写在这里即可。。。

        return item

转载于:https://www.cnblogs.com/gaosai/p/9838740.html