布隆过滤器

最新推荐文章于 2022-09-21 09:58:21 发布

weixin_30498921

最新推荐文章于 2022-09-21 09:58:21 发布

阅读量75

点赞数

CC 4.0 BY-SA版权

文章标签： java

原文链接：http://www.cnblogs.com/crackpotisback/p/10058898.html

布隆过滤器是一种在海量数据处理中高效判断元素是否存在的数据结构，它结合了bitmap和hash的思想，通过多个独立的哈希函数减少空间占用并提供快速查询。本文详细解释了布隆过滤器的工作原理，包括其优缺点，并通过Java代码示例展示了其运算过程。此外，还介绍了布隆过滤器的误差计算公式。

布隆过滤器

布隆过滤器在海量数据的处理应用较为广泛，比如，怎么判断一亿个url里面是不是有重复的。布隆过滤器结合了bitmap和hash的思想，bitmap的做法是使用一个bit来表示某个对象是否有出现，但是其所需要的空间跟所处理对象的最大值有关。

布隆过滤器采用\(k\)个hash函数将对象hash成\(k\)个值，然后将bitmap中这\(k\)个对应的bit位置都设为1。在查询过程中，需要保证\(k\)个位置都是1的情况下，才认为该元素出现过。下面的示意图很好地揭示了布隆过滤器地原理。

那布隆过滤器就是引入了\(k(k>1)\)个相互独立的哈希函数，保证在给定的空间、误判率下，完成元素判重的过程。(来源于zdxiq000：https://blog.youkuaiyun.com/zdxiq000/article/details/57626464)

布隆过滤器的优点有：

计算高效
省空间

同样，也有一定的缺点

不支持删除操作
存在误判

下面是一段java代码，可以很好的揭示其运算过程

public class BloomFilter{
    private final int size;
    private final int hashCount;
    private final BitSet bitSet;

    public BloomFilter(int size, int hashCount){
        this.size = size;
        this.hashCount = hashCount;
        this.bitSet = new BitSet(size);
    }

    public void put(String key){
        for (int seed = 1; seed <= hashCount; ++seed){
            int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
            int index = Math.abs(hash) % size;
            bitSet.set(index);
        }
    }

    public boolean lookup(String key){
        for (int seed = 1; seed <= hashCount; ++seed){
            int hash = Hashing.murmur3_32(seed).hashBytes(key.getBytes()).asInt();
            int index = Math.abs(hash)%size;
            if(!bitSet.get(index)) return false;
        }
        return true;
    }

}

class BloomFilterTest{
    public static void main(String[] args) {
        BloomFilter bf = new BloomFilter(3, 100);
        bf.put("123");
        bf.put("1234");
        bf.put("234");

        System.out.println(bf.lookup("234"));
    }
}

布隆过滤器的误差计算

假设哈希函数等概率地选择每个数组位置，即哈希后的值符合均匀分布，那么每个元素等概率地哈希到位数组的m个比特位上，与其他元素被哈希到哪些位置无关(独立事件)。设定数组总共有m个比特位，有k个哈希函数。在插入一个元素时，一个特定比特没有被某个哈希函数置为1的概率是：\(1 - \dfrac{1}{m}\)。插入一个元素后，这个比特没有被任意哈希函数置为1的概率是：\((1 - \dfrac{1}{m})^k\)。在插入了n个元素后，这个特定比特仍然为0的概率是：\((1 - \dfrac{1}{m})^{nk}\)。所以这个比特被置为1的概率是：\(1 - (1 - \dfrac{1}{m})^{nk}\)
现在检测一个不在集合里的元素。经过哈希之后的这k个数组位置任意一个位置都是1的概率如上。这k个位置都为1的概率是：：\(\left(1 - (1 - \dfrac{1}{m})^{nk}\right)^k\)，根据
\[ \lim_{n->\infty}(1 + \dfrac{1}{n})^n = e \]
可以知道
\[ \begin{split} \left(1 - (1 - \dfrac{1}{m})^{nk}\right)^k &= \left[1 - (1 - \dfrac{1}{m})^{-m\dfrac{nk}{-m}}\right]^k\\ &\approx \left[1 - e^{-\dfrac{nk}{m}}\right]^k \end{split} \]
当
\[ k = \dfrac{m}{n}\ln{2 }\]时，有最小值\(\ln p= -\dfrac{m}{n}(\ln 2)^2\)