大数据去重:Bitmap和布隆过滤器

本文介绍了大数据处理中的去重问题,分别探讨了Bitmap和Bloom Filter两种解决方案。在用户关注链问题中,提出了利用归并排序避免数据库压力;在大数据去重场景下,Bitmap通过2-Bitmap法解决内存限制问题,而Bloom Filter则在有限误判率下节省存储空间。此外,还讨论了Bloom Filter在URL去重、邮件过滤、秒杀系统等领域的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 用户关注链问题

场景描述:在某场景下有一个用户关系链,比如A关注了B,然后B关注了C,然后用户B知道自己被谁关注,也知道他关注了谁。假如说将这个信息放在统一的数据库中,然后用户查询的时候每次去遍历,那么就会对数据库造成非常大的负担,而且在一个亿级用户系统中这样的时间延迟是不可接受的。这种情况下我们可以为每个用户维护两个集合:一个是他关注的人,一个是他被谁关注了。这里也会出现一个问题:假如A关注了B,那么一次关注就要写两个数据,一个是A的关注列表,一个是B的被关注列表,如果说中间由于网络或者其他某些原因导致其中一个写操作丢失,后面要怎么排查出那个丢失的写操作?

解决方案:使用归并排序来处理,内排外排都行。假定A关注了B,那么就会产生两个数据(A,B)、(A,B),一个放在A的关注列表中,一个放在B的被关注列表中,他们都是成对出现。我们每隔一段时间就批量将所有用户的关注列表和被关注列表读取出来,然后进行归并排序,只要在归并的过程中出现了成对的数据,就把成对的数据抛弃掉,这样一直归并下去最后剩下的就是不成对的数据。最后我们根据这个不成对的数据去把它们补全即可。

2. Bitmap

场景描述:在2.5亿个整数中找出不重复的整数,注,内存不足以容纳这2.5亿个整数。

解决方案1:采用2-Bitmap(每个数分配2bit,00表示不存在,01表示出现一次,10表示多次,11无意义)进行,共需内存2^32 * 2 bit=1 GB内存

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值