应用Bloom Filter的几个小技巧

最新推荐文章于 2025-08-13 15:50:21 发布

zjnig711

最新推荐文章于 2025-08-13 15:50:21 发布

阅读量672

点赞数

分类专栏：算法文章标签： filter 数据结构 cache 扩展存储工作

算法专栏收录该内容

20 篇文章

订阅专栏

本文介绍了几种使用Bloom过滤器的技巧，包括集合并集求解、位数组压缩、集合元素数量估计及交集元素数量估计，并探讨了CountingBloom过滤器的工作原理及其在动态集合上的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

应用Bloom Filter的几个小技巧

2009-09-12 22:51

原文地址：http://hi.baidu.com/xdzhang_china/blog/item/2847777e83fb020229388a15.html

下面列举几个基于标准 Bloom Filter 的小技巧：

1. 求两个集合的并。假设有两个 Bloom Filter 分别表示集合 S₁ 和 S₂ ，它们位数组的大小相同且使用同一组哈希函数，那么要求表示 S₁ 和 S₂ 并集的 Bloom Filter ，只要将 S₁ 和 S₂ 的位数组进行“或”操作即可得到结果。

2. 将 Bloom Filter “对折”。如果想将一个 Bloom Filter 的大小缩小一半，那么只需将 Bloom Filter 的位数组分成两半进行“或”操作，得到的结果即为所求。在查找某一元素时，需要将哈希后的索引地址的最高位屏蔽掉。

3. 通过 0 的数目估计集合元素个数。在第一篇文章 Bloom Filter 概念和原理中，我们提到过：位数组中 0 的比例非常集中地分布在它的数学期望值 m (1 - 1/m)^kn 的附近，其中 m 为位数组的大小， k 为哈希函数的个数， n 为 Bloom Filter 所表示集合的元素个数。根据上式，知道了 0 的个数就可以很容易推断 n 的大小。

4. 通过内积估计集合交集元素个数。假设有两个 Bloom Filter 分别表示集合 S₁ 和 S₂ ，它们位数组的大小相同且使用同一组哈希函数，下面我们来看第 i 位在两个 Bloom Filter 同时被置为 1 的概率。要让某一位同时被置为 1 ，只有两种可能：要么它是被 S₁ ∩S₂ 中的元素设置的，要么分别是被 S₁ – (S₁ ∩S₂ ) 和 S₂ - (S₁ ∩S₂ ) 中的元素设置的。因此第 i 位在两个 Bloom Filter 同时被置为 1 的概率为：

|S| 表示 S 中元素的个数， k 表示哈希函数的个数， m 表示位数组的大小。经过化简，再乘以 m ，得到两个位数组内积的数学期望值为：

如果不知道 |S₁ | 和 |S₂ | ，可以用 3 中的方法根据 0 的个数估计出它们的大小。最后，根据上式，我们在知道内积的情况下就可以很容易推断 | S₁ ∩S₂ | 的大小。

5. 表示全集。很简单，将位数组设为全 1 就可以表示全集了，因为查找任何一个元素都会得到肯定的结果。

Counting Bloom Filter

从前面几篇对 Bloom Filter 的介绍可以看出，标准的 Bloom Filter 是一种很简单的数据结构，它只支持插入和查找两种操作。在所要表达的集合是静态集合的时候，标准 Bloom Filter 可以很好地工作，但是如果要表达的集合经常变动，标准 Bloom Filter 的弊端就显现出来了，因为它不支持删除操作。

Counting Bloom Filter 的出现解决了这个问题，它将标准 Bloom Filter 位数组的每一位扩展为一个小的计数器（ Counter ），在插入元素时给对应的 k （ k 为哈希函数个数）个 Counter 的值分别加 1 ，删除元素时给对应的 k 个 Counter 的值分别减 1 。 Counting Bloom Filter 通过多占用几倍的存储空间的代价，给 Bloom Filter 增加了删除操作。下一个问题自然就是，到底要多占用几倍呢？