google guava bloom filter包的坑

本文介绍了Google Guava库中的Bloom Filter使用方法及其潜在问题。在实战中,虽然仅需一行代码即可实现查询,但当预期插入量过大时,内存占用并未增加,导致哈希函数个数减少,影响准确性。解决方案包括减少预期插入量或拆分Bloom Filter以提高整体容量和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

关于bloom filter以及原理,见我之前转的这篇:

http://blog.youkuaiyun.com/inte_sleeper/article/details/7824857


下面开始实战篇。google guava包是包含了一个bloom filter的实现的,使用方式比较简单,其实就是一行代码:

BloomFilter<CharSequence> filter = BloomFilter.create(Funnels.stringFunnel(), 10000000, 0.001F);

上面的代码创建了一个以string为key的bloom filter,预期的插入量是1KW,错误率是0.1%。

查询的时候,直接调 filter.mightContain()方法就可以,非常简单。


下面开始说坑吧。guava的BloomFilter,内部的一段实现代码如下:

public static <T> BloomFilter<T> create(Funnel<T> funnel, int expectedInsertions,
      double falsePositiveProbability) {
    checkNotNull(funnel);
    checkArgument(expectedInsertions >= 0, "Expected insertions cannot be negative");
    checkArgument(falsePositiveProbability > 0.0 & falsePos
### BloomFilter.create 方法参数详解及使用说明 #### 参数含义 `BloomFilter.create` 是用于创建一个布隆过滤器实例的方法。该方法支持两种重载形式: 1. **带有两个参数的形式** `public static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions)` 此版本会使用默认的误判率 (False Positive Probability, FPP),其值为 0.03[^3]。 2. **带有三个参数的形式** `public static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions, double fpp)` 以下是各参数的具体解释: - **Funnel<?>**: 这是一个接口,定义了如何将对象转换为其原始字段表示的方式。通过这个接口,可以指定如何提取数据并将其写入哈希函数中。例如,在 Java 中可以通过 Guava 提供的标准实现来处理基本类型或自定义类的对象。对于整数类型的数据流,可以直接利用内置的支持工具如 `Funnels.integerFunnel()` 来完成映射操作[^4]。 - **expectedInsertions**: 表示预计要插入到布隆过滤器中的元素数量。此值决定了内部位数组大小以及所需的哈希函数数目。如果实际插入的数量远超预期,则可能会增加冲突概率;反之则浪费空间资源。 - **fpp (false positive probability)**: 定义允许的最大假阳性比率(即当查询某个不存在于集合内的项目时返回 true 的可能性)。较低的 fpp 值意味着更高的准确性但也伴随着更大的内存消耗和计算开销。通常情况下,默认设置为 0.03 即可满足大多数应用场景需求[^4]。 #### 使用示例 下面展示了一段基于上述理论构建的一个简单例子程序片段: ```java import com.google.common.hash.Funnel; import com.google.common.hash.Funnels; import com.google.common.hash.BloomFilter; // 创建一个针对 Integer 类型元素设计容量为十万条记录且目标错误率为百分之一的布隆过滤器实例 BloomFilter<Integer> bloomFilter = BloomFilter.create( Funnels.integerFunnel(), // 转换机制 100000L, // 预估插入量级 0.01 // 可接受误差比例 ); ``` 在此代码块里我们首先导入必要的库文件接着按照官方推荐的最佳实践方式初始化了一个专门用来管理整数集成员关系测试任务的新建对象变量名叫做bloomFilter. #### 注意事项 虽然布隆过滤器提供了高效的空间利用率与快速查找性能特点但它也有局限之处比如一旦某项被判定可能属于特定组别之后就无法再移除该项除非重新建立整个结构体因此在某些特殊场景下需谨慎选用此类算法解决方案[^1].
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值