scrapy默认去重

最新推荐文章于 2022-09-07 18:20:02 发布

原创最新推荐文章于 2022-09-07 18:20:02 发布 · 3.8k 阅读

6 ·

CC 4.0 BY-SA版权

python爬虫同时被 2 个专栏收录

39 篇文章

订阅专栏

网络爬虫

35 篇文章

订阅专栏

作者：乌尔班
链接：https://www.zhihu.com/question/19793879/answer/312467126
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

增量爬取，一般两类情况：1.一个网站出现了新的页面，2.一个老页面内容变更了。

无论哪一种，增量的前提都是已经存下已经爬取好的信息（至于哪些要存，下面说），当出现新的情况时，重复数据不会抓取，直接抓取新的东西。

第一种，一个网站出现了新页面

1.在分析之前，先看一下scrapy的去重策略：

scrapy通过request_fingerprint函数，对Request对象生成指纹，看注释：

# 该函数在scrapy/utils/request.py文件中
def request_fingerprint(request, include_headers=None):
    if include_headers:
        include_headers = tuple(to_bytes(h.lower())
                                 for h in sorted(include_headers))
    cache = _fingerprint_cache.setdefault(request, {})
    if include_headers not in cache:
        fp = hashlib.sha1()
        """计算指纹时，请求方法(如GET、POST)被计算在内"""
        fp.update(to_bytes(request.method)) 

        """下面这句有意思，canonicalize_url()将url规范化，意味着
          http://www.example.com/query?id=111&cat=222
          http://www.example.com/query?cat=222&id=111
        这样参数位置变化，但参数值不变的网址，表示的仍是同一个网址，符合现实逻辑。
         """
        fp.update(to_bytes(canonicalize_url(request.url)))

        """request.body的属性是字符串：
        一般GET方法的body为空字符串，不考虑；
        而POST方法要上传一个字典data（类型是dict），
        要经过urllib.parse.urlencode()函数转换后才能变成request.body
       """
        fp.update(request.body or b'')
        if include_headers:
            for hdr in include_headers:
                if hdr in request.headers:
                    fp.update(hdr)
                    for v in request.headers.getlist(hdr):
                        fp.update(v)
        cache[include_headers] = fp.hexdigest()
    return cache[include_headers]
"""我们甚至可以根据需求将request.meta的内容作为指纹计算的一部分"""

scrapy生成的唯一指纹，存在内存的一个集合里，即set。如果下一次请求产生的指纹在这个set里面，请求被判定为重复，这次请求就被忽略，也就是所谓的去重了。

从上面可以可出，scrapy认为，如果url/POST data/method都一致，这个请求就是重复的，这适合绝大多数情况。

需要提一下：上述的处理方式，意味着想要变更request的指纹就要改变request，即是在downloaderMiddleware的process_request方法中变更。