BitMap

最新推荐文章于 2021-10-31 13:40:51 发布

转载最新推荐文章于 2021-10-31 13:40:51 发布 · 213 阅读

数据和算法专栏收录该内容

1 篇文章

订阅专栏

本文介绍了一种高效的数据处理算法——Bit-Map算法。通过使用Bit-Map算法，可以在有限的内存空间内处理大规模数据集，如快速判断一个整数是否存在于40亿个不重复的整数集合中。文章详细解释了Bit-Map算法的工作原理，并提供了C语言实现示例。

转载于http://blog.51cto.com/zengzhaozheng/1404108
https://blog.youkuaiyun.com/hguisu/article/details/7880288
https://blog.youkuaiyun.com/v_july_v/article/details/6685962

一、概述

本文将讲述Bit-Map算法的相关原理,Bit-Map算法的一些利用场景，例如BitMap解决海量数据寻找重复、判断个别元素是否在海量数据当中等问题.最后说说BitMap的特点已经在各个场景的使用性。

二、Bit-Map算法

先看看这样的一个场景：给一台普通PC，2G内存，要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数，给出一个整数，问如果快速地判断这个整数是否在文件40亿个数据当中？

问题思考：

40亿个int占（40亿*4）/1024/1024/1024 大概为14.9G左右，很明显内存只有2G，放不下，因此不可能将这40亿数据放到内存中计算。要快速的解决这个问题最好的方案就是将数据搁内存了，所以现在的问题就在如何在2G内存空间以内存储着40亿整数。一个int整数在java中是占4个字节的即要32bit位，如果能够用一个bit位来标识一个int整数那么存储空间将大大减少，算一下40亿个int需要的内存空间为40亿/8/1024/1024大概为476.83 mb，这样的话我们完全可以将这40亿个int数放到内存中进行处理。

具体思路：

1个int占4字节即4*8=32位，那么我们只需要申请一个int数组长度为 int tmp[1+N/32]即可存储完这些数据，其中N代表要进行查找的总数，tmp中的每个元素在内存在占32位可以对应表示十进制数0~31,所以可得到BitMap表:

tmp[0]:可表示0~31

tmp[1]:可表示32~63

tmp[2]可表示64~95

…….

那么接下来就看看十进制数如何转换为对应的bit位：

假设这40亿int数据为：6,3,8,32,36,……，那么具体的BitMap表示为：
这里写图片描述
三、Bit-Map算法原始实现

标注下，这部分来自blog：http://blog.youkuaiyun.com/hguisu/article/details/7880288的第五部分。好，来看看c语言的实现
//set 设置所在的bit位为1

void set(int i) {      
    a[i>>SHIFT] |=  (1<<(i & MASK));
}
//clr 初始化所有的bit位为0
void clr(int i) {      
    a[i>>SHIFT] &= ~(1<<(i & MASK));
}
//test 测试所在的bit为是否为1
int  test(int i){
    return a[i>>SHIFT] &   (1<<(i & MASK));
}                                                                      
int main()
{   int i;
    for (i = 0; i < N; i++)
        clr(i);
    while (scanf("%d", &i) != EOF)
        set(i);
    for (i = 0; i < N; i++)
        if (test(i))
            printf("%d\n", i);
    return 0;
}