海量数据下使用bitmap和布隆过滤器去重

最新推荐文章于 2025-03-26 14:02:53 发布

Dewey_DD

最新推荐文章于 2025-03-26 14:02:53 发布

阅读量2.7k

点赞数 3

分类专栏： java 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/godwei_ding/article/details/80328923

版权

java 同时被 2 个专栏收录

7 篇文章

订阅专栏

4 篇文章

订阅专栏

海量数据下使用bitmap和布隆过滤器去重

常规情况下的hash表去重

对于常规的少量数据去重，我们往往采用hash表来去重。这种方法比较简单，就是计算出hash值进行比较，然后hash值相同的在进行下额外的判断来确认是否是同一个数据即可。
bitmap去重

在海量数据进行去重的条件下，如果继续使用hash表则会出现一个很严重的问题，由于hash表是建立了一个hash值与实际数据的意义对应关系，对于十万乃至百万、千万的数据则完全是不现实的。首先对于去重的问题，我们只需要标记该数据有没有出现过，并不需要去存储该数据。从这方面入手，便有了bitmap。
这里我们假设待处理的数据是int型数据，占32位。则数值区间为2^32，一共需要2^32位来标识所有的数值，那么我们只需要含有2^29个byte的byte数组来表示即可。使byte[0]表示最低的8位，依次类推，按顺序排列。数据13则对应byte[1]中第5位设置为1，8+5=13，表示13出现过。
这里编程实现时一般采用位运算进行。例如
设置该数值出现过：
```
public void setFlag(int num) {
flags[num >> 3] = flags[num >> 3]|(0x01 << (num & (0x07)));
}
```
首先num>>3表示将num左移三位，等价于num/8,这是应为每一个byte占8个字节相当于标记0-7。8/8=1则其标记位在byte[1]中。num & (0x07)则相当于num%8，高位与上0111后为都为0，只有最后三位保留下来。这样值域就是0-7。
查询制定数据是否出现过：
```
public static boolean getFlag(int num) {
    return flags[num >> 3] >> (num & (0x07)) & 0x01;
}
```
显然bitmap的大小不会随数据量的变化而变化，他只受原始数据分布区间的影响，所以非常适合来处理海量数据。但是如果数据量比较小的话，它的效率可能就稍逊于hash表了。
布隆过滤器去重，

bitmap虽然好用，但是对于很多实际情况下的大数据处理它还是远远不够的，例如如果我们要进行64bit的long型数据去重，那我们需要含有2^61个byte的byte数组来存储，这显然是不现实的。那我们如何来优化呢，很明显加入我们申请了这么打的byte数组来标记数据，可想而知其空间利用率是极地的。布隆过滤器正是通过提高空间利用率来进行标记的。
如下图所示

它采用k个不同的散列函数来进行计算，将数值散列到k个不同的位置，然后将这些位置置为1.上图为例，k=3对于数值w他所对应的三个数值不全为1，所以判定其不在集合中。想到这里大家应该意识到了一个问题，如果一个数值v进行散列计算后位置落在3,4,5（从0开始计算），那么将判定该数据在当前集合中，这就产生了误判。会将不在集合中的数据误认为存在集合中，但是判定不在集合中的情况那将一定不在集合中。我们将这种错误判断的概率叫做误判率。接下来我们计算一下误判率：
假设目前有m个bit，k个散列函数，集合中存在n个数据。
当k=1时，插入一个元素后某个位置为0的概率为

$1 - 1 m$ $1- \dfrac{1}{m}$
插入n个后某个位置还为0的概率为
$（ 1 - 1 m ） n$ $（1- \dfrac{1}{m}）^n$
每次插入元素时有k个散列函数，相当于把k个位置置为1。所以k个散列函数插入n个数据后某一个位置为0的概率为
$（ 1 - 1 m ） n k$ $（1- \dfrac{1}{m}）^{nk}$
为1的概率则为
$1 - （ 1 - 1 m ） n k$ $1-（1- \dfrac{1}{m}）^{nk}$
所以当插入n个元素后，查找某个元素是否在集合中事。k个散列位置全为1的概率为（产生误判，比真实值要大，应为这个数可能真的在集合中）
$（ 1 - （ 1 - 1 m ） n k ） k$ $（1-（1- \dfrac{1}{m}）^{nk}）^k$
具体往下的推导大家可以自行百度，看看paper。这里只是简单介绍一下。

博客等级

码龄8年

21
原创

39
点赞

112
收藏

47
粉丝

关注

私信

热门文章

分类专栏

javaagent 1篇
bytebuddy 1篇
spring 4篇
任务调度 1篇
kafka 2篇
Mysql 2篇
java 7篇
SSM 3篇
云计算 2篇
算法 4篇
git 2篇
微服务 1篇

最新评论

mysql隐式转换导致的索引失效问题
出云伴月: 你好，这块没能理解，为啥官网例子会这样描述呢， The reason for this is that there are many different strings that may convert to the value 1, such as '1', ' 1', or '1a'. 类型转换不是针对条件值吗，怎么看起来是针对了列呢。
基于kafka的延时队列实现
weixin_45795054: 其实用redisson的消息队列就可以了
javaagent暴打纪实（一）
小强5560: 大佬，能提供下源码吗？？
分布式任务调度框架调研
m0_59321005: 博主的技术面很广哦，而且都是干货文章，小菜鸟求带，可以加你微信随时和您交流吗，感谢
基于kafka的延时队列实现
weixin_41797376: 这也太复杂了吧，看不懂

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。