布隆过滤器解决缓存穿透的原理

布隆过滤器是一种高效的数据结构,用于判断一个元素可能是否存在,但可能会有误判。通过多个哈希函数将元素映射到bit向量中,避免了传统数据结构的空间占用。在缓存穿透问题中,它可以预先过滤掉不可能存在的请求,减少对数据库的查询。此外,布隆过滤器还可应用于垃圾邮件和短信过滤。
布隆过滤器
作用

告诉你某个元素一定不存在或者可能存在,相比于传统的List、Set、Map等数据结构,它更高效、占用的控件更小。

数据结构

布隆过滤器是一个bit向量或者bit,如果我们要映射一个值到布隆过滤器中,我们㤇使用多个不同的哈希函数生成多个哈希值,并将每个生成的哈希值指向的bit位设置为1,如下baidu一词设置了三个位置为1

在这里插入图片描述

“tencent”一词,对应的情况

在这里插入图片描述

可以看到,不同的词对应的bit位置可能相同,当词很多的情况时,可能大部分bit位置都是1,这时查询taobao可能对应的位置都为1,只能说明taobao一词可能存在,不是一定存在的。

使用布隆过滤器

导入依赖

<dependency>
     <groupId>com.google.guava</groupId>
     <artifactId>guava</artifactId>
     <version>19.0</version>
</dependency>

代码

public class Test {

    private static int size = 1000000;//预计要插入多少数据

    private static double fpp = 0.01;//期望的误判率

    private static BloomFilter<Integer> bloomFilter = BloomFilter.create(Funnels.integerFunnel(), size, fpp);

    public static void main(String[] args) {
        //插入数据
        for (int i = 0; i < 1000000; i++) {
            bloomFilter.put(i);
        }
        int count = 0;
        for (int i = 1000000; i < 2000000; i++) {
            if (bloomFilter.mightContain(i)) {
                count++;
                System.out.println(i + "误判了");
            }
        }
        System.out.println("总共的误判数:" + count);
    }
}
应用场景

1.缓存穿透,当大量访问不存在数据的请求到达时,先用布隆过滤器过滤,避免直接去查库,查出来不存在。

public String get(String key) {
    String value = redis.get(key);     
    if (value  == null) {
        // redis中不存在该缓存
        if(!bloomfilter.mightContain(key)){
            //布隆过滤器也没有,直接返回
            return null; 
        }else{
            //布隆过滤器中能查到,不代表一定有,查出来放入redis,同样也可以避免缓存穿透
            value = db.get(key);
            redis.set(key, value); 
        }    
    }
    return value;
}

2.反垃圾邮件、垃圾短信,用布隆过滤器判断这些号码是否存在布隆过滤器中。

<think>嗯,用户的问题是关于如何用布隆过滤器解决缓存穿透问题,而且已经提供了几个相关引用资料。用户可能正在准备面试或者设计高并发系统,需要具体落地方案。 注意到用户引用的资料里提到布隆过滤器的基本原理Redis结合使用的场景,特别是引用[3]给出了Guava库的具体代码示例。用户的核心诉求应该是“如何实操”,而不仅仅是理论。 用户的历史提问显示ta对缓存穿透有基本理解,但更关注布隆过滤器的实现细节。需要重点解释这几个关键点: 1. 布隆过滤器如何拦截不存在的数据请求(二进制向量的特性) 2. 具体实现时的初始化步骤(像引用[3]那样配置预期元素数量和误判率) 3. 如何与现有缓存流程结合(必须强调“先查布隆过滤器再查缓存”的顺序) 用户提供的引用[2]提到布隆过滤器能提高应用稳定性,这点可以融入总结部分。但要注意避免过度承诺——布隆过滤器有误判率,需要明确说明解决方案(比如允许少量误判时直接穿透到DB,或者用白名单补偿)。 代码示例部分会很有帮助,考虑用Guava的BloomFilter类演示,因为引用[3]已经给出框架。需要补充说明的是: - 初始化后要预热数据(如addToBloomFilter("user123")) - mightContain()方法在业务逻辑中的调用位置 - 误判率0.01的实际影响(10万次查询可能有1000次误放行) 最后要提醒用户,布隆过滤器需要同步更新:当数据库新增数据时,必须调用addToBloomFilter(),否则会出现新数据被拦截的问题。这点在引用资料里没强调,但对生产环境很重要。 相关问题的设计可以延续布隆过滤器的技术深度(比如误判率优化)和扩展场景(如垃圾邮件过滤),帮助用户建立系统知识。</think>使用布隆过滤器(Bloom Filter)解决缓存穿透问题,需将其作为前置过滤器拦截无效查询请求。以下是具体实现步骤和原理详解: --- ### 一、布隆过滤器核心原理 1. **数据结构** 由长度为 $m$ 的**二进制位数组**和 $k$ 个**独立哈希函数**组成。 2. **写入操作** 当插入元素 $x$ 时: - 用 $k$ 个哈希函数计算哈希值:$h_1(x), h_2(x), ..., h_k(x)$ - 将位数组中对应位置设为 1: $$ \text{set bit}[h_i(x) \mod m] = 1, \quad i=1,2,...,k $$ 3. **查询操作** 判断元素 $y$ 是否存在: - 若所有 $k$ 个位置均为 1 → **可能存在**(存在误判) - 若任一位置为 0 → **一定不存在**(无漏判)[^4][^5] --- ### 二、解决缓存穿透的流程 ```mermaid graph TD A[用户请求] --> B{布隆过滤器检查} B -- 返回 false --> C[直接返回空结果] B -- 返回 true --> D{查询缓存} D -- 缓存命中 --> E[返回缓存数据] D -- 缓存未命中 --> F[查询数据库] F -- 数据存在 --> G[写入缓存并返回] F -- 数据不存在 --> H[向布隆过滤器添加标记] ``` 1. **请求拦截阶段** - 请求到达时,先用布隆过滤器检查查询键(如商品ID) - 若返回 `false`(键一定不存在),直接返回空结果或错误响应,**避免访问数据库**[^1] 2. **缓存查询阶段** - 布隆过滤器返回 `true` 时,继续查询缓存 - 缓存命中则返回数据 3. **数据库兜底阶段** - 缓存未命中时查询数据库 - 若数据存在:写入缓存 - 若数据不存在:**将键加入布隆过滤器**(防止后续重复穿透)[^3] --- ### 三、代码实现示例(Java + Guava) ```java import com.google.common.hash.BloomFilter; import com.google.common.hash.Funnels; public class CacheService { // 初始化布隆过滤器(预期元素10万,误判率1%) private static BloomFilter<String> bloomFilter = BloomFilter.create( Funnels.stringFunnel(StandardCharsets.UTF_8), 100000, 0.01 ); public Object getData(String key) { // 1. 布隆过滤器拦截 if (!bloomFilter.mightContain(key)) { return null; // 直接返回空 } // 2. 查询缓存 Object data = cache.get(key); if (data != null) { return data; } // 3. 查询数据库 data = database.query(key); if (data == null) { // 3.1 数据不存在:将key加入布隆过滤器 bloomFilter.put(key); // 后续相同请求将被拦截 } else { // 3.2 数据存在:写入缓存 cache.set(key, data); } return data; } } ``` > **关键点**:数据库查询返回空时,需调用 `bloomFilter.put(key)` 将键加入过滤器[^3]。 --- ### 四、优势与注意事项 | **优势** | **注意事项** | |-----------------------------------|--------------------------------------| | ✅ 内存占用极低(1亿元素约114MB) | ⚠️ 误判率存在(可配置但不可消除) | | ✅ 查询时间复杂度 $O(k)$(常数级) | ⚠️ **不支持删除操作**(需用计数布隆过滤器) | | ✅ 完全阻止无效键访问数据库 | ⚠️ 需预热:启动时加载所有合法键到过滤器 | > **误判率优化公式**: > 给定元素数量 $n$ 和位数组长度 $m$,最优哈希函数数量 $k$ 为: > $$ k = \frac{m}{n} \ln 2 \approx 0.7 \frac{m}{n} $$ > 误判率 $p$ 近似为: > $$ p \approx \left(1 - e^{-kn/m}\right)^k $$ > 通过调整 $m$ 和 $k$ 可控制误判率[^4][^5]。 --- ### 五、典型应用场景 1. **缓存穿透防护**:拦截非法ID请求[^1][^2] 2. **爬虫URL去重**:避免重复抓取 3. **邮箱垃圾邮件过滤**:识别已知垃圾邮件地址 4. **分布式系统路由**:快速判断节点是否存在 --- 通过布隆过滤器前置拦截,可确保无效请求**永不访问数据库**,从根源解决缓存穿透问题。需注意定期维护布隆过滤器(如数据库新增数据时同步更新)并监控误判率[^3][^5]。 --- **相关问题**: 1. 布隆过滤器的误判率如何影响系统性能?如何优化误判率? 2. 除了 Guava,Redis 中如何实现布隆过滤器? 3. 计数布隆过滤器(Counting Bloom Filter)是如何支持删除操作的? 4. 布隆过滤器在分布式系统中如何保证数据一致性?
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值