布隆过滤器

一杯拿铁go

已于 2022-05-09 20:08:04 修改

阅读量229

点赞数

分类专栏：算法文章标签：布隆过滤器

于 2021-01-15 12:13:37 首次发布

本文链接：https://blog.youkuaiyun.com/w417950004/article/details/112656890

版权

算法专栏收录该内容

16 篇文章

订阅专栏

布隆过滤器是一种用于大数据量场景下判断元素是否存在而不必存储所有数据的数据结构。它利用多个哈希函数将元素映射到位数组，存在一定的误判率但能快速判断。文章详细介绍了其添加元素和查询元素的步骤，并给出了Java和Redis实现的示例，展示了如何通过布隆过滤器优化存储和查询效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

主要作用：根据给定的布隆过滤器判断值是否存在。尤其适用于当数据量非常大时的判断。但是会存在一定的误判率，属于是牺牲了准确率来提升判断速度和节省存储空间。

原理是将数据映射到一个很长的二进制向量上，通过查询映射数据在二进制向量的存在情况来判断数据是否存在。

核心概念是若k哈希函数和一个长度为m的超大的位数组。
添加时将元素通过函数函数得到k个值，然后将位数组上的这个k个位置置为1；
判断元素时，同样通过函数得到k个值，然后判断在位数组上着k个位置是不是都是1，如果不是那数据肯定不存在，如果是那数据可能是存在的。

以上图为例，具体的操作流程：假设集合里面有3个元素{x, y, z}，哈希函数的个数为3。首先将位数组进行初始化，将里面每个位都设置位0。对于集合里面的每一个元素，将元素依次通过3个哈希函数进行映射，每次映射都会产生一个哈希值，这个值对应位数组上面的一个点，然后将位数组对应的位置标记为1。查询W元素是否存在集合中的时候，同样的方法将W通过哈希映射到位数组上的3个点。如果3个点的其中有一个点不为1，则可以判断该元素一定不存在集合中。反之，如果3个点都为1，则该元素可能存在集合中。注意：此处不能判断该元素是否一定存在集合中，可能存在一定的误判率。可以从图中可以看到：假设某个元素通过映射对应下标为4，5，6这3个点。虽然这3个点都为1，但是很明显这3个点是不同元素经过哈希得到的位置，因此这种情况说明元素虽然不在集合中，也可能对应的都是1，这是误判率存在的原因。

布隆过滤器添加元素

将要添加的元素给k个哈希函数
得到对应于位数组上的k个位置
将这k个位置设为1

布隆过滤器查询元素

将要查询的元素给k个哈希函数
得到对应于位数组上的k个位置
如果k个位置有一个为0，则肯定不在集合中
如果k个位置全部为1，则可能在集合中

布隆过滤器的实现(JAVA+Redis)：

定义BloomFilterHelper类，在类中实现数据映射功能的murmurHashOffset函数，以及根据误差率

murmurHashOffset函数

通过murmurHash的方式将value数据转化成64为的整形数据，通过简单的加减操作得到一系列下标，该部分下标就是该value值要存储的下标位置。

public int[] murmurHashOffset(T value) {
    int[] offset = new int[numHashFunctions];

    long hash64 = Hashing.murmur3_128().hashObject(value, funnel).asLong();
    int hash1 = (int) hash64;
    int hash2 = (int) (hash64 >>> 32);
    for (int i = 1; i <= numHashFunctions; i++) {
        int nextHash = hash1 + i * hash2;
        if (nextHash < 0) {
            nextHash = ~nextHash;
        }
        offset[i - 1] = nextHash % bitSize;
    }

    return offset;
}

通过传进去的期望长度和误差率来确定需要执行的hash次数，而hash次数就表示存储到redis的bit下标数。

/**
 * 计算hash方法执行次数
 */
private int optimalNumOfHashFunctions(long n, long m) {
    return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
}

数据的存储与验证

在数据加入到布隆过滤器的redis中：

/**
 * 根据给定的布隆过滤器添加值
 *
 * @param key
 * @param value
 * @param <T>
 * @return
 */
public <T> void addByBloomFilter(String key, T value) {
    int[] offset = bloomFilterHelper.murmurHashOffset(value);
    for (int i : offset) {
        redis.setbit(key, i, true);
    }

}

判断数据是不是在布隆过滤器的redis中：

从布隆过滤器的redis中取出key所在的下标数组值。如果存在不为true的就是不存在，如果全部为true才是存在的


responses = shardedJedisPipeline.syncAndReturnAll();
boolean flag = true;
for (Object re : responses) {
    if (!Boolean.parseBoolean(re.toString())) {
        flag = false;
        break;
    }
}

参考链接：

布隆过滤器(Bloom Filter)的原理和实现

百科：布隆过滤器