布隆过滤器(Bloom Filter)简单介绍

最新推荐文章于 2025-01-19 19:58:16 发布

原创最新推荐文章于 2025-01-19 19:58:16 发布 · 291 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

数据结构与算法专栏收录该内容

1 篇文章

订阅专栏

布隆过滤器是一种高效的空间节省算法，用于快速判断元素是否存在于集合中。本文介绍了其工作原理，包括初始化二进制数组、设置哈希函数等步骤，并分析了误判率的影响因素。此外还列举了在Google Bigtable、Squid缓存服务器等实际场景中的应用案例。

布隆过滤器(Bloom Filter)

布隆过滤器，用很长的二进制矢量和哈希函数实现，主要作用是快速判断一个元素是否在集合中。

它的优点是空间效率和查询时间都远远超过一般的算法，缺点是有一定的误识别率和删除困难。

主要特点是如果过滤器判断一个元素不在集合中，那么这个元素必定不在该集合中。命题的否命题则不成立

原理

在这里插入图片描述

初始化长度为n比特的数组，每个比特初始化为0
设置k个hash函数，每个hash函数可以将key散列为一个整数(该整数应该小于数组长度)
当某个key加入集合时，用k个hash函数计算出k个散列值，并把数组中对应的位置的比特置为1
判断某个key是否在集合中时，用k个hash函数计算出k个散列值，查询数组中对应的比特位，如果对应的所有比特位都为1，则认为该key在集合中

误判情况分析

误判率与hash函数个数k，位数组长度m，插入元素个数n有关。

m，n确定时 $\frac{m}nln2 \approx 0.7\frac{m}n$

对于给定的误算率p，最优的位数组大小 $\frac{nlnp}{(ln2)^2}$ ，m应该与n成正比

二进制矢量，这里是位数组，每个元素大小为1bit，100万个bit: $1\times10^6bit = 125\times10^3B \approx122KB$ ，

在这里插入图片描述

Bloom Filter 用例

Google 著名的分布式数据库 Bigtable 使用了布隆过滤器来查找不存在的行或列，以减少磁盘查找的IO次数。
Squid 网页代理缓存服务器在 cache digests 中使用了也布隆过滤器。
Venti 文档存储系统也采用布隆过滤器来检测先前存储的数据。
SPIN 模型检测器也使用布隆过滤器在大规模验证问题时跟踪可达状态空间。
Google Chrome浏览器使用了布隆过滤器加速安全浏览服务。
在很多Key-Value系统中也使用了布隆过滤器来加快查询过程，如 Hbase，Accumulo，Leveldb，一般而言，Value 保存在磁盘中，访问磁盘需要花费大量时间，然而使用布隆过滤器可以快速判断某个Key对应的Value是否存在，因此可以避免很多不必要的磁盘IO操作，只是引入布隆过滤器会带来一定的内存消耗，下图是在Key-Value系统中布隆过滤器的典型使用：
在这里插入图片描述

参考：
参考
 参考

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。