python scrapy 去重

最新推荐文章于 2025-09-18 09:56:30 发布

原创最新推荐文章于 2025-09-18 09:56:30 发布 · 6.8k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#python #scrapy #去重 #redis

linux 同时被 2 个专栏收录

19 篇文章

订阅专栏

Python

10 篇文章

订阅专栏

本文介绍了一种使用Scrapy框架结合Redis实现爬虫URL去重的方法。具体包括两个部分：一是通过Pipeline将已爬取的URL存入Redis；二是借助Middleware在请求前检查URL是否已存在于Redis中，从而避免重复抓取。

1、Pipleline 加入如下代码：（在数据爬完后将URL塞入redis去重）

class RedisInsert(object):
   
    def process_item(self,item,spider):
        set_redis_values_1(item['url'])
        return item

2、Middleware加入如下代码：（在爬数据之前查看该URL是否爬取过）

class IngoreRequestMiddleware(object):
    def __init__(self):
        self.middlewareLogging=getLogger("IngoreRequestMiddleware")

    def process_request(self,request,spider):
        if get_redis_values_1(request.url):
            self.middlewareLogging.debug("IgnoreRequest : %s" % request.url)
            raise IgnoreRequest("IgnoreRequest : %s" % request.url)
        else:
            self.middlewareLogging.debug("haveRequest : %s" % request.url)
            return None

ok！！！