布隆过滤器（Bloom Filter）

清风169

已于 2024-06-27 11:39:39 修改

阅读量1.1k

点赞数 25

分类专栏：后端架构文章标签：算法

于 2024-06-26 21:04:16 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_37909391/article/details/139994189

版权

什么是布隆过滤器

它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。主要用于判断一个元素是否在一个集合中。

布隆过滤器的优点：

支持海量数据场景下高效判断元素是否存在
布隆过滤器存储空间小，并且节省空间，不存储数据本身，仅存储hash结果取模运算后的位标记
不存储数据本身，比较适合某些保密场景

布隆过滤器的缺点：

不存储数据本身，所以只能添加但不可删除，因为删掉元素会导致误判率增加。
由于存在hash碰撞，匹配结果如果是“存在于过滤器中”，实际不一定存在
当容量快满时，hash碰撞的概率变大，插入、查询的错误率也就随之增加了

布隆过滤器中一个元素如果判断结果为存在的时候元素不一定存在，但是判断结果为不存在的时候则一定不存在。因此，布隆过滤器不适合那些对结果必须精准的应用场景。

布隆过滤器适合的场景

预防缓存穿透：布隆过滤器快速判断数据是否存在，避免通过查询数据库来判断数据是否存在。
网络爬虫：布隆过滤器可以用来去重已经爬取过的URL。
邮箱的垃圾邮件过滤。
黑白名单。

布隆过滤器原理

数据结构

布隆过滤器是由一个固定大小的二进制向量或者位图（bi

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。