爬取下来的数据如何去重

最新推荐文章于 2024-03-14 15:12:34 发布

原创最新推荐文章于 2024-03-14 15:12:34 发布 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

Python爬虫专栏收录该内容

216 篇文章

订阅专栏

博客介绍了不同数据量下的网页去重方法。数据量不大时，可在内存用 Python 的 set() 或 Redis 的 set 结构去重；数据量稍大，可用加密算法压缩后去重；数据量极大时，可用 Bloomfilter 去重。还提到在 Redis 上用 Bloomfilter 可解决持久化和分布式统一去重问题，以及 simhash 和 scrapy_redis 的去重方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

                    
                    通过  MD5 生成电子指纹来判断页面是否改变
nutch  去重。nutch 中  digest 是对采集的每一个网页内容的  32 位哈希值，如果两个网页内容完 全一样，它们的  digest 值肯定会一样。
数据量不大时，可以直接放在内存里面进行去重，python 可以使用  set()进行去重。当去重数据 需要持久化时可以使用  redis 的  set 数据结构。
当数据量再大一点时，可以用不同的加密算法先将长字符串压缩成    16/32/40   个字符，再使用 上面两种方法去重。
当数据量达到亿（甚至十亿、百亿）数量级时，内存有限，必须用“位”来去重，才能够满足需 求。Bloomfilter 就是将去重对象映射到几个内存“位”，通过几个位的   0/1 值来判断一个对象是 否已经存在。
然而  Bloomfilter 运行在一台机器的内存上，不方便持久化（机器 down  掉就什么都没啦），也不 方便分布式爬虫的统一去重。如果可以在  Redis 上申请内存进行  Bloomfilter，以上两个问题就都能解 决了。
simhash 最牛逼的一点就是将一个文档，最后转换成一个  64  位的字节，暂且称之为特征字，然后 判断重复只需要判断他们的特征字的距离是不是<n（根据经验这个  n  一般取值为  3），就可以判断两个 文档是否相似。
可见    scrapy_redis   是利用    set    数据结构来去重的，去重的对象是    request 的    fingerprint（其实 就是用    hashlib.sha1()对    request   对象的某些字段信息进行压缩）。其实    fp    就是    request    对象加密 压缩后的一个字符串（40   个字符，0~f）。