100亿个query，1G内存如何找出这俩个文件的交集?分别给出近似算法和精确算法?

最新推荐文章于 2024-10-27 09:18:27 发布

sdoyuxuan

最新推荐文章于 2024-10-27 09:18:27 发布

阅读量1.1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：算法题文章标签：大数据算法题

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sdoyuxuan/article/details/78448037

算法题专栏收录该内容

38 篇文章

订阅专栏

本文探讨了在处理大规模数据集时使用的两种不同算法：近似算法与精确算法。近似算法采用布隆过滤器实现快速查询，而精确算法则通过哈希分割技术确保查询结果的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分析

近似算法

近似算法，用布隆过滤器，对query进行哈希，开70亿个位，刚好差不多比1G小点，再从第一个文件中，读取query,一个一个映射到布隆过滤器里面，再从第二个文件中读取query，一个一个在布隆过滤器里面查询，看是否存在，因为存在不一定准确，但是不存在一定准确，所以这个是可以解决的，所以它是近似算法。

精确算法

精确算法，一个query字符串大概算60字节，100亿大概600G，那么我们可以进行哈希切割。那么我们切分6000块把源文件，即对源文件中的query字符串进行哈希得到key值，然后用除留余数法进行哈希（%6000），把不同的query放到不同的文件中。
切割完毕后，读取第二个文件时也是对其分割成6000份，对其每一个字符串进行哈希(MD5)，然后得到的key 用除留余数法看落在那个被切割的子文件中，然后把子文件内容读取到unordered_map中,然后进行find,在不在就是不在。这个就是精确的算法。切割6000块，一块文件大概100M,所以也符合题意。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。