BloomFilter

最新推荐文章于 2024-11-16 22:28:06 发布

qq_30184517

最新推荐文章于 2024-11-16 22:28:06 发布

阅读量237

点赞数

CC 4.0 BY-SA版权

分类专栏：算法文章标签： BloomFilter

本文链接：https://blog.youkuaiyun.com/qq_30184517/article/details/79376641

1 篇文章

订阅专栏

BloomFilter是一种二进制向量数据结构，用于检测一个元素是否为集合的一个成员，常用于去重。它通过位（bit）来保存元素，并使用多个Hash函数定位元素，具有高效的空间和时间性能，但牺牲了准确性。本文介绍了BloomFilter的工作原理、误判率的计算公式及优化方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

定义：二进制向量数据结构，具有很好的空间和时间效率，用来检测一个元素是否为集合的一个成员，一般使用BloomFilter来去重；

BloomFilter是通过“位（bit）”来保存元素的，是一个初始值全为0的位数组；

添加元素：使用K个Hash函数得到元素的K个Hash值，以这K个Hash值作为数组的索引，把位数组中位于该索引的值设为1。

查找元素：与添加元素过程相似，使用K个Hash函数得到元素的K个Hash值，以这K个Hash值作为数组的索引，查找到索引位置的值，如有一个值为0，则代表该元素不存在于BloomFilter中；如果都为1，说明该元素存在于BloomFilter中，但有误判的概率。

举例：
位数组bloom：0000000000000000；

存入元素x：
　元素x的三个Hash值为1、5和10，将x存入bloom中，bloom变为：0000010000100010；
存入元素y：
　元素y的三个Hash值为1、4和8，4和8所在的位为0，故y不存在于bloom中，将y存入bloom，bloom变为：0000010100110010；
存入元素z：
　元素z的三个Hash值为4、5和8，4、5和8所在的位为1，这时会判断为z已存在bloom中，为重复数据，但事实上z并不与x或y相同，故出现“误判”——将不是重复的数据判定为重复。

BloomFilter的优缺点：

相关值的设定

误判率f 的计算公式：
$f = (1 - (1 - 1 m) k n) k ， m 为位数组大小， k 为 H a s h 函数个数， n 为预计存入的最大数据量；$ $f = (1 - (1 - \frac{1}{m}) ^ {kn}) ^ k，m为位数组大小，k为Hash函数个数，n为预计存入的最大数据量；$
当m 趋向于无穷时，误判率f 的计算公式可变为：
$f = (1 - (1 - 1 m) k n) k = (1 - (1 - 1 m) - m - k n m) k \approx (1 - e n k m) k$ $f = (1 - (1 - \frac{1}{m}) ^ {kn}) ^ k = (1 - (1 - \frac{1}{m}) ^ {-m\frac{-kn}{m}}) ^ k \approx (1 - e ^ {\frac{nk}{m}}) ^ k$
给定m 和n 值时，当 $k = \frac{m}{n}ln2 \approx 0.7\frac{m}{n}$ 时f 的值为最小，为 $(\frac{1}{2}) ^ k \approx 0.6185 ^ {\frac{m}{n}}$ ；
位数组的大小m： $m \ge log_2e * n log_2(\frac{1}{f})$
注：具体算法公示计算参考中，在此处的计算出错，
$f = 2 ^ {-k} \Rightarrow k = log_2\frac{1}{f} \Rightarrow \frac{m}{n}ln2 = log_2\frac{1}{f} \Rightarrow m = log_2e * n log_2(\frac{1}{f})$ ,
$(log_aM ^ n = nlog_aM, log_ab * log_ba = 1)$ ；