布隆过滤器的原理

转载已于 2024-03-05 17:03:50 修改 · 484 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/lotus35/article/details/114005198

文章标签：

于 2022-12-01 14:46:44 首次发布

Work 专栏收录该内容

72 篇文章

订阅专栏

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，用于测试一个元素是否是一个集合的成员。它的特点是高效的插入和查询，但是有一定的错误识别率和删除困难。布隆过滤器由Howard Bloom于1970年提出，它可以快速地检查一个元素是否在一个集合中，但是可能会有一些误报（false positives），即它可能会错误地认为某个元素在集合中，而实际上它不在。然而，布隆过滤器绝不会错误地认为某个元素不在集合中（没有误漏，或false negatives）。

原理

布隆过滤器基本上是一个大型的位数组和几个哈希函数的集合。以下是它的工作原理：

初始化:
- 创建一个m位的位数组（bit array），所有位初始值为0。
- 选择k个哈希函数，每个函数可以将任意数据映射到1到m范围内的一个整数。
添加元素:
- 当需要添加一个元素时，将该元素分别通过k个哈希函数计算哈希值。
- 得到k个在位数组范围内的位置。
- 将这k个位置的位值都设置为1。
查询元素:
- 当需要查询一个元素是否存在时，同样通过k个哈希函数计算该元素的哈希值定位到位数组中的k个位置。
- 如果这k个位置的位值都为1，那么认为元素可能存在。
- 如果这些位置中有任何一个位值为0，则元素一定不存在。

特点

误报:
由于不同元素的哈希值可能会映射到相同的位置，布隆过滤器可能会错误地判断不存在的元素为存在，即产生误报。
删除困难:
由于多个元素可能共享相同的位，因此删除操作会影响到其他元素，正常的布隆过滤器不支持删除。尽管存在变种（如计数布隆过滤器），可以允许删除，但会复杂得多。
空间效率:
布隆过滤器非常节省空间，特别是在处理大量数据时比传统的数据结构（如哈希表）效率高得多。
时间效率:
布隆过滤器的所有操作（添加、查询）时间复杂度都是O(k)，k是哈希函数的个数，与存储的元素数量无关。
不可逆:
由于哈希函数的特性，从布隆过滤器中不能重建出任何元素，因为具体的数据没有存储在结构中，只有它们的信息的一种"影子"。

应用场景

由于其特点，布隆过滤器非常适合于那些不允许误漏但可以容忍一定误报的场景，例如网页爬虫的URL检测、数据库查询缓存、网络路由算法等。它们可以有效地减少对存储空间和计算资源的需求。

布隆过滤器的原理

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。