海量数据判重——布隆过滤器(Bloom filter)与Bitmap对比

本文对比了布隆过滤器和Bitmap在海量数据判重中的应用。布隆过滤器具有高空间利用率和快速查找速度,但存在假阳性问题。Bitmap则以更小的空间存储数据,但内存需求随最大元素增大。在权衡误判率和空间效率时,可根据实际需求选择合适的数据结构。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

之前写过一篇Bitmap在海量整数排序中应用的博客,在看过布隆过滤器之后,感觉两个有些相似,但是又有区别,在查阅了很多资料之后,这里决定稍作总结。

关于布隆过滤器(Bloom filter)的介绍部分,大多翻译自Wikipedia

正文

布隆过滤器

简介

布隆过滤器(Bloom filter)是一个高空间利用率的概率性数据结构,由Burton Bloom于1970年提出。被用于测试一个元素是否在集合中(由于集合无重复元素的性质,可用来判重)。

可在数据量大到传统无错误散列(hash)方法需要使用的内存量是不可满足时使用,传统无错散列方法可以消除所有无用的磁盘访问,同时需要使用的内存量也非常大,而布隆过滤器在有限的内存使用量下依旧可以排除大部分无用的磁盘访问。

特性

存在假阳性(将不在集合中的元素误判为在集合中),不存在假阴性(将在集合中的元素误判为不在集合中)。过滤器中的元素个数越多,假阳性的可能性越大,总的来说,当不考虑集合中元素个数的情况下,每个元素由10个以下的bit来表示就可以保证1%以内的假阳性概率。

元素可以被加入过滤器,但不可从过滤器中删除(因为删除的时候有可能会影响到其他元素,之后会细说)。

空间和时间优势

布隆过滤器不需要存储数据项,但是同时它需要在其他地方单独存储真正的数据项。对于一个拥有最优k值且误判率在1%的布隆过滤器,每个元素只需要9.6bits(与元素的大小无关)。这个优点一部分继承自数组的紧凑性,另一方面由它本身的概率性决定。若给每个元素增加4.8bits左右,误判率将会减少十倍。

布隆过滤器在添加和查找元素时,所需要的时间时一个常数,O(k),完全与集合中元素个数无关。没有其他固定空间的集合数据结构有这样的效率,但是对于稀疏散列表来说,平均访问时长在实际使用中比一些布隆过滤器要短。在硬件实现方式中,布隆过滤器的优势在于他的k个查询之间不相关,因此可以并行处理。

算法描述

一个空的布隆过滤器是一串被置为0的bit数组(假设由m位)。同时,应该声明k个不同的散列函数生成一个统一随机分布,每一个散列函数都将元素映射到m个bit中的一个(k是一个小于m的常数,与加入过滤器中的元素个数成比例)。k与相应的m的选择由误判率决定。

向过滤器中添加元素时,通过k个散列函数得到该元素对应的k个位置,并将这些位置置为1.

查询某个元素/测试是否与已有元素重复时,依旧通过k个散列函数得到对应的k个位置,判断这些位置是否为1(若全为1则在集合内/重复)

可以看如下图所示的一个例子,其中,{x,y,z}为集合,w为进行比对的元素,m=18,k=3,不同颜色的箭头表示散列映射关系。可以看出,w并不在{x,y,z}这个集合中。
布隆过滤器示例
注意

①、当k比较大时,设计k个不同且无相关的散列函数是不现实的。对于一些输出的位数较多的优秀的散列函数(优秀指不同bit区间之间联系很小),我们可以将其切割成多个bit区域来代替多个散列函数。或者我们可以传递k个不同的值(例如:0,1,2,…,k-1)到一个散列函数中对其进行初始化;或者将这k个值整合到待计算元素中,再进行计算。对于较大的m,k,无相关性的散列函数可以使误判率的增加量减少。
②、从过滤器中删除元素是不可能的,因为有可能删除的当前元素与其他元素共享了某一个bit。当置该bit为0时,就会产生假阴性,这是绝对不允许的。
③、想要保持误判率低,过滤器的空间使用率(bit数组中置为1的概率)应为50%左右

m值的选取

对于给定的p(误判率)和将要加入集合的元素个数n,m由如下公式定义:

### Redis 中布隆过滤器 Bitmap 的使用场景 #### 布隆过滤器的特点及其在 Redis 中的应用 布隆过滤器Bloom Filter)是一种高效的空间节约型概率数据结构,主要用于快速断某个元素是否属于一个集合。这种特性使得其非常适合应用于需要频繁查询大量数据集成员关系的场合[^4]。 对于 Redis 来说,虽然本身并不直接提供原生支持的布隆过滤器模块,但是可以通过第三方扩展或者利用现有的命令组合来模拟实现这一功能。例如,在某些特定版本或通过安装额外插件的方式可以启用布隆过滤器的支持;而在其他情况下,则可能依赖于像 `SETBIT` `GETBIT` 这样的底层指令配合哈希函数构建自定义解决方案[^2]。 #### Bitmap 特性概述 另一方面,Bitmap 是指由一系列二进制位组成的序列,其中每一位都可以单独设置为0或1。Redis 提供了一组专门针对 bitmap 操作的功能,允许用户方便地执行按位运算以及统计操作。由于每个 bit 只占用一位存储空间,因此当面对海量布尔状态记录需求时显得尤为经济有效[^1]。 #### 实现方式对比 - **布隆过滤器** - 利用多个独立散列函数将输入映射到固定长度的比特向量上; - 对应位置设为 true (即置1),以此表示该元素已被加入过; - 查询时只需检查对应索引处的状态即可得出结论; - 存在误报的可能性——即认为不存在但实际上存在的情况,但绝不会漏检真正存在过的项目。 - **Bitmap** - 主要是用来保存大量的布尔值信息; - 支持高效的批量更新读取; - 不涉及复杂的算法逻辑,更侧于简单直观的数据表达形式。 #### 使用场景分析 - **布隆过滤器适用范围** - 缓存穿透防护:防止恶意请求绕过缓存层直击数据库造成压力过大; - 黑名单管理:快速筛选出已知不良行为者而不必每次都访问持久化存储; - URL 去:辅助网络爬虫识别并忽略复抓取的内容资源。 - **Bitmap 应用领域** - 用户签到打卡系统:每天标记一次完成相应动作的时间戳; - 统计在线人数变化趋势:每分钟采样当前活跃连接数的变化曲线; - 大规模权限控制机制:精细化设定不同角色所能触及的操作权限列表[^3]。 综上所述,尽管两者都涉及到位级操作的概念,但在实际应用中的侧点各有千秋。选择合适的技术方案取决于具体业务需求技术栈现状等因素考量。 ```python import redis from hashlib import md5, sha1 def add_to_bloom_filter(r, key, item): """Add an element to the bloom filter.""" hashes = get_hashes(item) for h in hashes: r.setbit(key, h % 8 * 1024, 1) def check_in_bloom_filter(r, key, item): """Check if an element is possibly in the set represented by a bloom filter.""" hashes = get_hashes(item) return all(r.getbit(key, h % 8 * 1024) == 1 for h in hashes) def get_hashes(value): """Generate multiple hash values from one input value using different algorithms.""" algos = [md5, sha1] results = [] for algo in algos: hasher = algo() hasher.update(str.encode(value)) result = int(hasher.hexdigest(), base=16) results.append(result) return results r = redis.Redis(host='localhost', port=6379, db=0) add_to_bloom_filter(r, 'bloomfilter_key', 'example_item') print(check_in_bloom_filter(r, 'bloomfilter_key', 'example_item')) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值