缓存穿透和布隆过滤器

最新推荐文章于 2025-04-30 08:15:00 发布

Happytoo_

最新推荐文章于 2025-04-30 08:15:00 发布

阅读量519

点赞数 1

文章标签：布隆过滤器缓存穿透缓存

原文链接：https://www.kancloud.cn/zatko/redis

版权

缓存雪崩

缓存雪崩指的是Redis当中的大量缓存在同一时间全部失效，而假如恰巧这一段时间同时又有大量请求被发起，那么就会造成请求直接访问到数据库，可能会把数据库冲垮。

缓存雪崩一般形容的是缓存中没有而数据库中有的数据，而因为时间到期导致请求直达数据库。

解决方案

解决缓存雪崩的方法有很多，常用的有以下几种：

加锁，保证单线程访问缓存。这样就不会有很多请求同时访问到数据库。
key值的失效时间不要设置成一样。典型的就是初始化预热数据的时候，将数据存入缓存时可以采用随机时间来确保不会在同一时间有大量缓存失效。
内存允许的情况下，可以将缓存设置为永不失效。

缓存击穿

缓存击穿和缓存雪崩很类似，区别就是缓存击穿一般指的是单个缓存失效，而同一时间又有很大的并发请求需要访问这个key，从而造成了数据库的压力。

解决方案

解决缓存击穿的方法和解决缓存雪崩的方法很类似：

加锁，保证单线程访问缓存。这样第一个请求到达数据库后就会重新写入缓存，后续的请求就可以直接读取缓存。
内存允许的情况下，可以将缓存设置为永不失效。

缓存穿透

缓存穿透和上面两种现象的本质区别就是：这时候访问的数据不但在Redis中不存在，而且在数据库中也不存在，这样如果并发过大就会造成数据源源不断的到达数据库，给数据库造成极大压力。

解决方案

对于缓存穿透问题，加锁并不能起到很好地效果，因为本身key就是不存在，所以即使控制了线程的访问数，但是请求还是会源源不断的到达数据库。

解决缓存穿透问题一般可以采用以下方案配合使用：

接口层进行校验，发现非法的key直接返回。比如数据库中采用的是自增id，那么如果来了一个非整型的id或者负数id可以直接返回，或者说如果采用的是32位uuid，那么发现id长度不等于32位也可以直接返回。
将不存在的数据也进行缓存，可以直接缓存一个空或者其它约定好的无效value。采用这种方案最好将key设置一个短期失效时间，否则大量不存在的key被存储到Redis中，也会占用大量内存。

什么是布隆过滤器

针对上面缓存穿透的解决方案，我们思考一下：假如一个key可以绕过第1种方法的校验，而此时有大量的不存在key被访问（如1亿个或者10亿个），那么这时候全部存储到内存中，是不太现实的。

那么有没有一种更好的解决方案呢？这就是我们接下来要介绍的布隆过滤器，布隆过滤器就可以用尽可能小的空间存储尽可能多的数据。

布隆过滤器（Bloom Filter）是由布隆在1970年提出的。它实际上是一个很长的二进制向量（位图）和一系列随机映射函数（哈希函数）。

布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率而且删除困难。

位图（Bitmap）

Redis当中有一种数据结构就是位图，布隆过滤器其中重要的实现就是位图的实现，也就是位数组，并且在这个数组中每一个位置只有0和1两种状态，每个位置只占用1个 bit，其中0表示没有元素存在，1表示有元素存在。

如下图所示就是一个简单的布隆过滤器示例（一个key值经过哈希运算和位运算就可以得出应该落在哪个位置）：

哈希碰撞

上面我们发现，lonely和wolf落在了同一个位置，这种不同的key值经过哈希运算后得到相同值的现象就称之为哈希碰撞。发生哈希碰撞之后再经过位运算，那么最后肯定会落在同一个位置。

如果发生过多的哈希碰撞，就会影响到判断的准确性，所以为了减少哈希碰撞，我们一般会综合考虑以下2个因素：

增大位图数组的大小（位图数组越大，占用的内存越大）。
增加哈希函数的次数（同一个key值经过1个函数相等了，那么经过2个或者更多个哈希函数的计算，都得到相等结果的概率就自然会降低了）。

布隆过滤器两大特点

上面两个方法我们需要综合考虑：比如增大位数组，那么就需要消耗更多的空间，而经过越多的哈希计算也会消耗cpu影响到最终的计算时间，所以位数组到底多大，哈希函数次数又到底需要计算多少次合适需要具体情况具体分析。

下图就是一个经过了2次哈希函数得到的布隆过滤器，根据下图我们很容易看到：假如Redis根本不存在，但是Redis经过2次哈希函数之后得到的两个位置已经是1了（一个是wolf通过f2得到，一个是Nosql通过f1得到，这就是发生了哈希碰撞，也是布隆过滤器可能存在误判的原因）。

所以通过上面的现象，我们从布隆过滤器的角度可以得出布隆过滤器主要有2大特点：

如果布隆过滤器判断一个元素存在，那么这个元素可能存在。
如果布隆过滤器判断一个元素不存在，那么这个元素一定不存在。

而从元素的角度也可以得出2大特点：

如果元素实际存在，那么布隆过滤器一定会判断存在。
如果元素不存在，那么布隆过滤器可能会判断存在。

PS：需要注意的是，如果经过N次哈希函数，则需要得到的N个位置都是1才能判定存在，只要有一个是0，就可以判定为元素不存在布隆过滤器中。

fpp

因为布隆过滤器中总是会存在误判率，所以哈希碰撞是不可能百分百避免的。布隆过滤器对这种误判率称之为假阳性概率，即：False Positive Probability，简称为fpp。

在实践中使用布隆过滤器时可以自己定义一个fpp，然后根据布隆过滤器的理论计算出需要多少个哈希函数和多大的位数组空间。需要注意的是这个fpp不能定义为100%，因为无法百分保证不发生哈希碰撞。

布隆过滤器实现

Guava实现

在Guava的包中提供了布隆过滤器的实现，下面就让我们通过Guava提供的布隆过滤器来体会一下布隆过滤器的使用：

还是使用之前的redis-demo项目，打开pom.xml文件，引入下面的pom依赖：

<dependency>
   <groupId>com.google.guava</groupId>
   <artifactId>guava</artifactId>
   <version>29.0-jre</version>
</dependency>

在如下图所示位置引入：

在src/main/java目录下的com.lonely.wolf.redis包内新建一个测试类GuavaBloomFilter.java进行测试：

package com.lonely.wolf.redis;

import com.google.common.base.Charsets;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

import java.text.NumberFormat;
import java.util.ArrayList;
import java.util.List;
import java.util.UUID;

public class GuavaBloomFilter {
    private static final int expectedInsertions = 1000000;

    public static void main(String[] args) {
        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8),expectedInsertions);

        List<String> list = new ArrayList<>(expectedInsertions);

        for (int i = 0; i < expectedInsertions; i++) {
            String uuid = UUID.randomUUID().toString();
            bloomFilter.put(uuid);
            list.add(uuid);
        }

        int mightContainNum1 = 0;

        NumberFormat percentFormat =NumberFormat.getPercentInstance();
        percentFormat.setMaximumFractionDigits(2); //最大小数位数

        for (int i=0;i < 500;i++){
            String key = list.get(i);
            if (bloomFilter.mightContain(key)){
                mightContainNum1++;
            }
        }
        System.out.println("【key真实存在的情况】布隆过滤器认为存在的key值数：" + mightContainNum1);
        System.out.println("-----------------------分割线---------------------------------");

        int mightContainNum2 = 0;

        for (int i=0;i < expectedInsertions;i++){
            String key = UUID.randomUUID().toString();
            if (bloomFilter.mightContain(key)){
                mightContainNum2++;
            }
        }

        System.out.println("【key不存在的情况】布隆过滤器认为存在的key值数：" + mightContainNum2);
        System.out.println("【key不存在的情况】布隆过滤器的误判率为：" + percentFormat.format((float)mightContainNum2 / expectedInsertions));
    }
}

同时，需要修改pom.xml文件中的mainClass属性，把这个类名修改正确：

<mainClass>com.lonely.wolf.redis.GuavaBloomFilter</mainClass>

执行如下命令：

# 进入主目录
cd /home/project/redis-demo
# 将项目打包成一个 jar 包
mvn clean package -Dmaven.test.skip=true
# 运行
java -jar target/redis-demo-1.0.0-SNAPSHOT.jar

运行之后的结果为：

第一部分输出的mightContainNum1一定是和for循环内的值相等，也就是百分百匹配。即满足了原则1：如果元素实际存在，那么布隆过滤器一定会判断存在。

第二部分的输出的误判率即fpp总是在3%左右，而且随着for循环的次数越大，越接近3%。即满足了原则2：如果元素不存在，那么布隆过滤器可能会判断存在。

这个3%的fpp是Guava中默认的fpp，且经过哈希计算次数默认为5次，这个3%的误判率和5次哈希运算需要多大空间位数组呢？这个大小可以点击这里进行模拟计算，下图就是一个计算结果：

得到的结果是890kb，100W的key才占用了0.89M，而如果是10亿呢，计算的结果是870M，这个内存空间是完全可以接受的。

Redis使用bitmap数据结构

setbit key offset value
gitbit key offset

java-Redisson封装的布隆过滤器

package com.ys.rediscluster.bloomfilter.redisson;

import org.redisson.Redisson;
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;
import org.redisson.config.Config;

public class RedissonBloomFilter {

    public static void main(String[] args) {
        Config config = new Config();
        config.useSingleServer().setAddress("redis://192.168.14.104:6379");
        config.useSingleServer().setPassword("123");
        //构造Redisson
        RedissonClient redisson = Redisson.create(config);

        RBloomFilter<String> bloomFilter = redisson.getBloomFilter("phoneList");
        //初始化布隆过滤器：预计元素为100000000L,误差率为3%
        bloomFilter.tryInit(100000000L,0.03);
        //将号码10086插入到布隆过滤器中
        bloomFilter.add("10086");

        //判断下面号码是否在布隆过滤器中
        System.out.println(bloomFilter.contains("123456"));//false
        System.out.println(bloomFilter.contains("10086"));//true
    }
}

更多实现参考： https://ata.alibaba-inc.com/articles/191121 中第三节

带有计数器的布隆过滤器

布隆过滤器判断一个元素存在就是判断对应位置是否为1来确定的，但是如果要删除掉一个元素是不能直接把1改成0的，因为这个位置可能存在其它元素，所以如果要支持删除，那我们应该怎么做呢？

最简单的做法就是加一个计数器，就是说位数组的每个位如果不存在就是0，存在几个元素就存具体的数字，而不仅仅只是存1。那么这就有一个问题，本来存1就是一位就可以满足了，但是如果要存具体的数字比如说2，那就需要2位了，所以带有计数器的布隆过滤器会占用更大的空间。

带有计数器的布隆过滤器目前也已经被实现了，下面就是一个带有计数器的布隆过滤器示例：

继续在pom.xml文件引入下面依赖：

<dependency>
    <groupId>com.baqend</groupId>
    <artifactId>bloom-filter</artifactId>
    <version>1.0.7</version>
</dependency>

在src/main/java目录下的com.lonely.wolf.redis包内新建一个带有计数器的布隆过滤器CountingBloomFilter.java（这里计数器空间大小传了8，即最多允许255次重复，如果不传的话这里默认是16位大小，即允许65535次重复。）：

package com.lonely.wolf.redis;

import orestes.bloomfilter.FilterBuilder;

public class CountingBloomFilter {
    public static void main(String[] args) {
        //初始化一个带有计数器的布隆过滤器
        //第一个参数是存入数据量，第二个参数是fpp，第三个是带计数器的过滤器中每个空间占用大小
        orestes.bloomfilter.CountingBloomFilter<String> cbf = new FilterBuilder(1000000,
                0.01).countingBits(8).buildCountingBloomFilter();

        cbf.add("zhangsan");
        cbf.add("lisi");
        cbf.add("wangwu");
        System.out.println("是否存在王五：" + cbf.contains("wangwu")); //true
        cbf.remove("wangwu");//删除wangwu
        System.out.println("是否存在王五：" + cbf.contains("wangwu")); //false
    }
}

同时，需要修改pom.xml文件中的mainClass属性，把这个类名修改正确：

<mainClass>com.lonely.wolf.redis.CountingBloomFilter</mainClass>

执行如下命令：

# 进入主目录
cd /home/project/redis-demo
# 将项目打包成一个 jar 包
mvn clean package -Dmaven.test.skip=true
# 运行
java -jar target/redis-demo-1.0.0-SNAPSHOT.jar

运行之后效果如下图所示，可以看到元素被成功删除：

引用：

Redis 为什么这么快 · 看云