Bloom Filter的几个小技巧

最新推荐文章于 2026-01-06 18:34:47 发布

转载最新推荐文章于 2026-01-06 18:34:47 发布 · 352 阅读

文章标签：

#filter #数据结构 #扩展 #存储 #工作

编程-算法专栏收录该内容

40 篇文章

订阅专栏

本文介绍了基于标准BloomFilter的一些实用技巧，包括集合并集、压缩位数组、估计集合元素数量、估算交集大小及表示全集的方法。此外还探讨了CountingBloomFilter的概念及其在动态集合场景中的应用。

http://hi.baidu.com/airzhutao/blog/item/8883b4d0f308e383a0ec9cd9.html

原文地址：http://hi.baidu.com/xdzhang_china/blog/item/2847777e83fb020229388a15.html

下面列举几个基于标准Bloom Filter的小技巧：

1. 求两个集合的并。假设有两个Bloom Filter分别表示集合S₁和S₂，它们位数组的大小相同且使用同一组哈希函数，那么要求表示S₁和S₂并集的Bloom Filter，只要将S₁和S₂的位数组进行“或”操作即可得到结果。

2. 将Bloom Filter“对折”。如果想将一个Bloom Filter的大小缩小一半，那么只需将Bloom Filter的位数组分成两半进行“或”操作，得到的结果即为所求。在查找某一元素时，需要将哈希后的索引地址的最高位屏蔽掉。

3. 通过0的数目估计集合元素个数。在第一篇文章Bloom Filter概念和原理中，我们提到过：位数组中0的比例非常集中地分布在它的数学期望值m (1 - 1/m)^kn的附近，其中m为位数组的大小，k为哈希函数的个数，n为Bloom Filter所表示集合的元素个数。根据上式，知道了0的个数就可以很容易推断n的大小。

4. 通过内积估计集合交集元素个数。假设有两个Bloom Filter分别表示集合S₁和S₂，它们位数组的大小相同且使用同一组哈希函数，下面我们来看第i位在两个Bloom Filter同时被置为1的概率。要让某一位同时被置为1，只有两种可能：要么它是被S₁∩S₂中的元素设置的，要么分别是被S₁– (S₁∩S₂)和S₂- (S₁∩S₂)中的元素设置的。因此第i位在两个Bloom Filter同时被置为1的概率为：

|S|表示S中元素的个数，k表示哈希函数的个数，m表示位数组的大小。经过化简，再乘以m，得到两个位数组内积的数学期望值为：

如果不知道|S₁|和|S₂|，可以用3中的方法根据0的个数估计出它们的大小。最后，根据上式，我们在知道内积的情况下就可以很容易推断| S₁∩S₂|的大小。

5. 表示全集。很简单，将位数组设为全1就可以表示全集了，因为查找任何一个元素都会得到肯定的结果。

Counting Bloom Filter

从前面几篇对Bloom Filter的介绍可以看出，标准的Bloom Filter是一种很简单的数据结构，它只支持插入和查找两种操作。在所要表达的集合是静态集合的时候，标准Bloom Filter可以很好地工作，但是如果要表达的集合经常变动，标准Bloom Filter的弊端就显现出来了，因为它不支持删除操作。

Counting Bloom Filter的出现解决了这个问题，它将标准Bloom Filter位数组的每一位扩展为一个小的计数器（Counter），在插入元素时给对应的k（k为哈希函数个数）个Counter的值分别加1，删除元素时给对应的k个Counter的值分别减1。Counting Bloom Filter通过多占用几倍的存储空间的代价，给Bloom Filter增加了删除操作。下一个问题自然就是，到底要多占用几倍呢？