Algorithms: Bitmap算法

最新推荐文章于 2025-10-26 04:12:20 发布

原创最新推荐文章于 2025-10-26 04:12:20 发布 · 260 阅读

0 ·

CC 4.0 BY-SA版权

Algorithm&Data Structure 专栏收录该内容

6 篇文章

订阅专栏

本文介绍了位图算法的基本概念及其实现原理，通过实例展示了如何利用位图算法解决海量数据存储与查找的问题，有效降低内存占用。

基本概念

位图看名字像是一种数据结构，其实严格来说是解决问题的一种方式，用每一位代表一个数字，极大的减少了内存占用，位图算法在海量数据的处理中有较多的应用，比如海量数据查重、判断海量数据中个别元素是否存在等问题。

应用场景

以参考链接[1]中的问题为例：判断一个int型数据是否存在于40亿个不重复且无序的数据中，要求在占用内存不超过2G。
常规想法是将40亿个int数据存储下来，这样占用内存 $4*10^{9}*4/1024/1024/1024=14.9G$ 。2G内存显然放不下，有人可能会想到将内存中数据存储到磁盘中分段读取判断，这不失为一个解决办法，但是众所周知磁盘I/O速度很慢。
这里可以应用位图算法的思想来解决，用1位代表一个数，这样一个int可以代表32个数，占用空间降为 $4*10^{9}/8/1024/1024=476.8M=14.9G/32$ 。易知，一个int型数组中，原本一个int元素（4个字节）只能代表一个数，用bitmap算法后一个int元素可以代表32个数，占用内存降为原来的 $1/32$ 。完全符合题目要求，可在2G内存中完成数据的查找。
具体操作上，如何将一个十进制数映射到二进制bitmap上呢？
假如要存储的数字为n，可以开辟一个大小为int arr[1+n/32]的数组。数组每个元素表示：
arr[0]:0~31
arr[1]:32~63
……
相当于将N个数按照32为单位进行分段（每个元素即代表一段）存储，确定数字m存储在哪个元素：m/32，确定数字m存储在相应元素的哪个位置：m%32。