基本概念
位图看名字像是一种数据结构,其实严格来说是解决问题的一种方式,用每一位代表一个数字,极大的减少了内存占用,位图算法在海量数据的处理中有较多的应用,比如海量数据查重、判断海量数据中个别元素是否存在等问题。
应用场景
以参考链接[1]中的问题为例:判断一个int型数据是否存在于40亿个不重复且无序的数据中,要求在占用内存不超过2G。
常规想法是将40亿个int数据存储下来,这样占用内存
4∗109∗4/1024/1024/1024=14.9G
。2G内存显然放不下,有人可能会想到将内存中数据存储到磁盘中分段读取判断,这不失为一个解决办法,但是众所周知磁盘I/O速度很慢。
这里可以应用位图算法的思想来解决,用1位代表一个数,这样一个int可以代表32个数,占用空间降为
4∗109/8/1024/1024=476.8M=14.9G/32
。易知,一个int型数组中,原本一个int元素(4个字节)只能代表一个数,用bitmap算法后一个int元素可以代表32个数,占用内存降为原来的
1/32
。完全符合题目要求,可在2G内存中完成数据的查找。
具体操作上,如何将一个十进制数映射到二进制bitmap上呢?
假如要存储的数字为n,可以开辟一个大小为int arr[1+n/32]的数组。数组每个元素表示:
arr[0]:0~31
arr[1]:32~63
……
相当于将N个数按照32为单位进行分段(每个元素即代表一段)存储,确定数字m存储在哪个元素:m/32,确定数字m存储在相应元素的哪个位置:m%32。
具体实现中涉及很多的位运算,这些位运算操作在以前的嵌入式C语言编程中操作寄存器时经常使用,比如讲某位清零、置一、左移右移等操作。
jdk中有相关的api类图可供直接调用。
参考资料:
1. http://blog.51cto.com/zengzhaozheng/1404108
2. http://blog.youkuaiyun.com/hguisu/article/details/7880288