【爬虫】使用mongodb做去重集合

最新推荐文章于 2025-07-04 08:16:10 发布

最新推荐文章于 2025-07-04 08:16:10 发布 · 1.5k 阅读

python笔记专栏收录该内容

9 篇文章

订阅专栏

博客讲述因url量级达亿以上，Redis内存飙升至22G，服务器无法承受，于是将去重集合从Redis迁移到MongoDB。解决方法包括通过脚本迁移，对url哈希缩短长度、插入数据时建立索引，还可通过特定链接方法限制MongoDB内存。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景：最初是用redis数据库中的set来做去重集合的，但是因为url的量级在亿以上，redis内存飙升到了22G，服务器无法承受。于是将集合都搬到了mongodb中

解决方法：

1. 通过脚本对redis中的集合进行迁移，

<1 对url进行哈希，缩短长度，节省空间。

<2 在插入数据到mongo的时候，要写好索引 (为了加快遍历速度，因为每访问一次url, 就需要遍历一遍去重表来比对)

        url_hash = computeMD5hash(self.main_url)
        obj = {"urlhash": url_hash}
        is_exist = self.fingure.find_one(obj)
        if not is_exist:
            self.fingure.create_index("urlhash")
            self.reddb.lpush(self.queue, self.main_url)
            #self.reddb.sadd(self.fingure, self.main_url)
            self.fingure.insert_one(obj)

第一行就是一个 hash加密方法，可以自己写。比较重要的就是create_index方法，用来建立索引

2. 限制mongo的内存，这也是我们的初衷。具体方法: https://www.cnblogs.com/luo-mao/p/5872388.html

大家有需要或者有啥不懂的，可以留言。。。写来基本是都是给以后都自己看的，。所以写的比较马虎。