布隆过滤器

本文围绕布隆过滤器展开,先介绍其用于解决缓存穿透问题,接着解析原理,包括误判率、不支持删除元素等特性。还给出 Guava 和 Redisson 的 Java 实现方式,最后阐述实战要点,如缓存穿透和元素删除场景的处理方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

布隆过滤器是一个精巧而且经典的数据结构。

你可能没想到:RocketMQ、 Hbase 、Cassandra 、LevelDB 、RocksDB 这些知名项目中都有布隆过滤器的身影。

对于后端程序员来讲,学习和理解布隆过滤器有很大的必要性。来吧,我们一起品味布隆过滤器的设计之美。

图片

1 缓存穿透

我们先来看一个商品服务查询详情的接口:

public Product queryProductById (Long id){
   // 查询缓存
   Product product = queryFromCache(id);
   if(product != null) {
     return product ;
   }
   // 从数据库查询
   product = queryFromDataBase(id);
   if(product != null) {
       saveCache(id , product);
   }
   return product;
}

图片

假设此商品既不存储在缓存中,也不存在数据库中,则没有办法回写缓存,当有类似这样大量的请求访问服务时,数据库的压力就会极大。

这是一个典型的缓存穿透的场景。

为了解决这个问题呢,通常我们可以向分布式缓存中写入一个过期时间较短的空值占位,但这样会占用较多的存储空间,性价比不足。

问题的本质是:"如何以极小的代价检索一个元素是否在一个集合中?"

我们的主角布隆过滤器出场了,它就能游刃有余的平衡好时间和空间两种维度

2 原理解析

布隆过滤器(英语:Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数

布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率查询时间远远超过一般的算法,缺点是有一定的误识别率和删除困难。

布隆过滤器的原理:当一个元素被加入集合时,通过 K 个散列函数将这个元素映射成一个位数组中的 K 个点,把它们置为 1。检索时,我们只要看看这些点是不是都是 1 就(大约)知道集合中有没有它了:如果这些点有任何一个 0,则被检元素一定不在;如果都是 1,则被检元素很可能在

简单来说就是准备一个长度为 m 的位数组并初始化所有元素为 0,用 k 个散列函数对元素进行 k 次散列运算跟 len (m) 取余得到 k 个位置并将 m 中对应位置设置为 1。

图片

如上图,位数组的长度是8,散列函数个数是 3,先后保持两个元素x,y。这两个元素都经过三次哈希函数生成三个哈希值,并映射到位数组的不同的位置,并置为1。元素 x 映射到位数组的第0位,第4位,第7位,元素y映射到数组的位数组的第1位,第4位,第6位。

保存元素 x 后,位数组的第4位被设置为1之后,在处理元素 y 时第4位会被覆盖,同样也会设置为 1。

当布隆过滤器保存的元素越多被置为 1 的 bit 位也会越来越多,元素 x 即便没有存储过,假设哈希函数映射到位数组的三个位都被其他值设置为 1 了,对于布隆过滤器的机制来讲,元素 x 这个值也是存在的,也就是说布隆过滤器存在一定的误判率

▍ 误判率

布隆过滤器包含如下四个属性:

  • k : 哈希函数个数

  • m : 位数组长度

  • n : 插入的元素个数

  • p : 误判率

若位数组长度太小则会导致所有 bit 位很快都会被置为 1 ,那么检索任意值都会返回”可能存在“ , 起不到过滤的效果。位数组长度越大,则误判率越小。

同时,哈希函数的个数也需要考量,哈希函数的个数越大,检索的速度会越慢,误判率也越小,反之,则误判率越高。

图片

从张图我们可以观察到相同位数组长度的情况下,随着哈希函数的个人的增长,误判率显著的下降。

误判率 p 的公式是

图片

  1. k 次哈希函数某一 bit 位未被置为 1 的概率为

    图片

  2. 插入 n 个元素后某一 bit 位依旧为 0 的概率为

    图片

  3. 那么插入 n 个元素后某一 bit 位置为1的概率为

    图片

  4. 整体误判率为

    图片

    ,当 m 足够大时,误判率会越小,该公式约等于

    图片

我们会预估布隆过滤器的误判率 p 以及待插入的元素个数 n 分别推导出最合适的位数组长度 m 和 哈希函数个数 k。

图片

▍ 布隆过滤器支持删除吗

布隆过滤器其实并不支持删除元素,因为多个元素可能哈希到一个布隆过滤器的同一个位置,如果直接删除该位置的元素,则会影响其他元素的判断。

▍ 时间和空间效率

布隆过滤器的空间复杂度为 O(m) ,插入和查询时间复杂度都是 O(k) 。存储空间和插入、查询时间都不会随元素增加而增大。空间、时间效率都很高。

▍哈希函数类型

Murmur3,FNV 系列和 Jenkins 等非密码学哈希函数适合,因为 Murmur3 算法简单,能够平衡好速度和随机分布,很多开源产品经常选用它作为哈希函数。

3 Guava实现

Google Guava是 Google 开发和维护的开源 Java开发库,它包含许多基本的工具类,例如字符串处理、集合、并发工具、I/O和数学函数等等。

1、添加Maven依赖

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>31.0.1-jre<</version>
</dependency>

2、创建布隆过滤器

BloomFilter<Integer> filter = BloomFilter.create(
  //Funnel 是一个接口,用于将任意类型的对象转换为字节流,
  //以便用于布隆过滤器的哈希计算。
  Funnels.integerFunnel(), 
  10000,  // 插入数据条目数量
  0.001  // 误判率
);

3、添加数据

@PostConstruct
public void addProduct() {
    logger.info("初始化布隆过滤器数据开始");
    //插入4个元素
     filter.put(1L);
     filter.put(2L);
     filter.put(3L);
     filter.put(4L);
     logger.info("初始化布隆过滤器数据结束");
}

4、判断数据是否存在

public boolean maycontain(Long id) {
    return filter.mightContain(id);
}

接下来,我们查看 Guava 源码中布隆过滤器是如何实现的 ?

static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions, double fpp, BloomFilter.Strategy strategy) {
    // 省略部分前置验证代码 
    // 位数组长度
    long numBits = optimalNumOfBits(expectedInsertions, fpp);
    // 哈希函数次数
    int numHashFunctions = optimalNumOfHashFunctions(expectedInsertions, numBits);
    try {
      return new BloomFilter<T>(
                    new LockFreeBitArray(numBits), 
                    numHashFunctions, 
                    funnel,
                    strategy
      );
    } catch (IllegalArgumentException e) {
      throw new IllegalArgumentException("Could not create BloomFilter of " + numBits + " bits", e);
    }
}
//计算位数组长度
//n:插入的数据条目数量
//p:期望误判率
@VisibleForTesting
static long optimalNumOfBits(long n, double p) {
   if (p == 0) {
     p = Double.MIN_VALUE;
   }
   return (long) (-n * Math.log(p) / (Math.log(2) * Math.log(2)));
}

// 计算哈希次数
@VisibleForTesting
static int optimalNumOfHashFunctions(long n, long m) {
    // (m / n) * log(2), but avoid truncation due to division!
    return Math.max(1, (int) Math.round((double) m / n * Math.log(2)));
}

Guava 的计算位数组长度和哈希次数和原理解析这一节展示的公式保持一致。

重点来了,Bloom filter 是如何判断元素存在的 ?

方法名就非常有 google 特色 ,  ”mightContain“ 的中文表意是:”可能存在“ 。方法的返回值为 true ,元素可能存在,但若返回值为 false ,元素必定不存在。

public <T extends @Nullable Object> boolean mightContain(
    @ParametricNullness T object,
    //Funnel 是一个接口,用于将任意类型的对象转换为字节流,
    //以便用于布隆过滤器的哈希计算。
    Funnel<? super T> funnel,  
    //用于计算哈希值的哈希函数的数量
    int numHashFunctions,
    //位数组实例,用于存储布隆过滤器的位集
    LockFreeBitArray bits) {
  long bitSize = bits.bitSize();
  //使用 MurmurHash3 哈希函数计算对象 object 的哈希值,
  //并将其转换为一个 byte 数组。
  byte[] bytes = Hashing.murmur3_128().hashObject(object, funnel).getBytesInternal();
  long hash1 = lowerEight(bytes);
  long hash2 = upperEight(bytes);

  long combinedHash = hash1;
  for (int i = 0; i < numHashFunctions; i++) {
    // Make the combined hash positive and indexable
    // 计算哈希值的索引,并从位数组中查找索引处的位。
    // 如果索引处的位为 0,表示对象不在布隆过滤器中,返回 false。
    if (!bits.get((combinedHash & Long.MAX_VALUE) % bitSize)) {
      return false;
    }
    // 将 hash2 加到 combinedHash 上,用于计算下一个哈希值的索引。
    combinedHash += hash2;
  }
  return true;
}

3 Redisson实现

Redisson 是一个用 Java 编写的 Redis 客户端,它实现了分布式对象和服务,包括集合、映射、锁、队列等。Redisson的API简单易用,使得在分布式环境下使用Redis 更加容易和高效。

1、添加Maven依赖

<dependency>
   <groupId>org.redisson</groupId>
   <artifactId>redisson</artifactId>
   <version>3.16.1</version>
</dependency>

2、配置 Redisson 客户端

@Configuration
public class RedissonConfig {

 Bean
 public RedissonClient redissonClient() {
    Config config = new Config();
    config.useSingleServer().setAddress("redis://localhost:6379");
    return Redisson.create(config);
 }
 
}

3、初始化

RBloomFilter<Long> bloomFilter = redissonClient.
                                      getBloomFilter("myBloomFilter");
//10000表示插入元素的个数,0.001表示误判率
bloomFilter.tryInit(10000, 0.001);
//插入4个元素
bloomFilter.add(1L);
bloomFilter.add(2L);
bloomFilter.add(3L);
bloomFilter.add(4L);

4、判断数据是否存在

public boolean mightcontain(Long id) {
    return bloomFilter.contains(id);
}

好,我们来从源码分析 Redisson 布隆过滤器是如何实现的 ?

public boolean tryInit(long expectedInsertions, double falseProbability) {
    // 位数组大小
    size = optimalNumOfBits(expectedInsertions, falseProbability);
    // 哈希函数次数
    hashIterations = optimalNumOfHashFunctions(expectedInsertions, size);
    CommandBatchService executorService = new CommandBatchService(commandExecutor);
    // 执行 Lua脚本,生成配置
    executorService.evalReadAsync(configName, codec, RedisCommands.EVAL_VOID,
            "local size = redis.call('hget', KEYS[1], 'size');" +
                    "local hashIterations = redis.call('hget', KEYS[1], 'hashIterations');" +
                    "assert(size == false and hashIterations == false, 'Bloom filter config has been changed')",
                    Arrays.<Object>asList(configName), size, hashIterations);
    executorService.writeAsync(configName, StringCodec.INSTANCE,
                                            new RedisCommand<Void>("HMSET", new VoidReplayConvertor()), configName,
            "size", size, "hashIterations", hashIterations,
            "expectedInsertions", expectedInsertions, "falseProbability", BigDecimal.valueOf(falseProbability).toPlainString());
    try {
        executorService.execute();
    } catch (RedisException e) {
    }
    return true;
}

图片

Bf配置信息

Redisson 布隆过滤器初始化的时候,会创建一个 Hash 数据结构的 key ,存储布隆过滤器的4个核心属性。

那么 Redisson 布隆过滤器如何保存元素呢 ?

public boolean add(T object) {
    long[] hashes = hash(object);
    while (true) {
        int hashIterations = this.hashIterations;
        long size = this.size;
        long[] indexes = hash(hashes[0], hashes[1], hashIterations, size);
        CommandBatchService executorService = new CommandBatchService(commandExecutor);
        addConfigCheck(hashIterations, size, executorService);
        //创建 bitset 对象, 然后调用setAsync方法,该方法的参数是索引。
        RBitSetAsync bs = createBitSet(executorService);
        for (int i = 0; i < indexes.length; i++) {
            bs.setAsync(indexes[i]);
        }
        try {
            List<Boolean> result = (List<Boolean>) executorService.execute().getResponses();
            for (Boolean val : result.subList(1, result.size()-1)) {
                if (!val) {
                    return true;
                }
            }
            return false;
        } catch (RedisException e) {
        }
    }
}

从源码中,我们发现 Redisson 布隆过滤器操作的对象是 位图(bitMap) 。

在 Redis 中,位图本质上是 string 数据类型,Redis 中一个字符串类型的值最多能存储 512 MB 的内容,每个字符串由多个字节组成,每个字节又由 8 个 Bit 位组成。位图结构正是使用“位”来实现存储的,它通过将比特位设置为 0 或 1来达到数据存取的目的,它存储上限为 2^32 ,我们可以使用getbit/setbit命令来处理这个位数组。

为了方便大家理解,我做了一个简单的测试。

图片

通过 Redisson API 创建 key 为 mybitset 的 位图  ,设置索引 3 ,5,6,8 位为 1 ,右侧的二进制值也完全匹配。

4 实战要点

通过 Guava 和 Redisson 创建和使用布隆过滤器比较简单,我们下面讨论实战层面的注意事项。

1、缓存穿透场景

首先我们需要初始化布隆过滤器,然后当用户请求时,判断过滤器中是否包含该元素,若不包含该元素,则直接返回不存在。

若包含则从缓存中查询数据,若缓存中也没有,则查询数据库并回写到缓存里,最后给前端返回。

图片

2、元素删除场景

现实场景,元素不仅仅是只有增加,还存在删除元素的场景,比如说商品的删除。

原理解析这一节,我们已经知晓:布隆过滤器其实并不支持删除元素,因为多个元素可能哈希到一个布隆过滤器的同一个位置,如果直接删除该位置的元素,则会影响其他元素的判断

我们有两种方案:

▍计数布隆过滤器

计数过滤器(Counting Bloom Filter)是布隆过滤器的扩展,标准 Bloom Filter 位数组的每一位扩展为一个小的计数器(Counter),在插入元素时给对应的 k (k 为哈希函数个数)个 Counter 的值分别加 1,删除元素时给对应的 k 个 Counter 的值分别减 1。

图片

虽然计数布隆过滤器可以解决布隆过滤器无法删除元素的问题,但是又引入了另一个问题:“更多的资源占用,而且在很多时候会造成极大的空间浪费”。

▍ 定时重新构建布隆过滤器

从工程角度来看,定时重新构建布隆过滤器这个方案可行也可靠,同时也相对简单。

图片

  1. 定时任务触发全量商品查询 ;

  2. 将商品编号添加到新的布隆过滤器 ;

  3. 任务完成,修改商品布隆过滤器的映射(从旧 A 修改成 新 B );

  4. 商品服务根据布隆过滤器的映射,选择新的布隆过滤器 B进行相关的查询操作 ;

  5. 选择合适的时间点,删除旧的布隆过滤器 A。

5 总结

布隆过滤器是一个很长的二进制向量和一系列随机映射函数,用于检索一个元素是否在一个集合中

它的空间效率查询时间远远超过一般的算法,但是有一定的误判率 (函数返回 true , 意味着元素可能存在,函数返回 false ,元素必定不存在)。

布隆过滤器的四个核心属性:

  • k :  哈希函数个数

  • m : 位数组长度

  • n :  插入的元素个数

  • p :  误判率

Java 世界里 ,通过 Guava 和 Redisson 创建和使用布隆过滤器非常简单。

布隆过滤器无法删除元素,但我们可以通过计数布隆过滤器定时重新构建布隆过滤器两种方案实现删除元素的效果。

为什么这么多的开源项目中使用布隆过滤器 ?

因为它的设计精巧且简洁,工程上实现非常容易,效能高,虽然有一定的误判率,但软件设计不就是要 trade off 吗 ?


参考资料:

https://hackernoon.com/probabilistic-data-structures-bloom-filter-5374112a7832


 


欢迎大家加入苏三的知识星球【Java突击队】,一起学习。

星球中有很多独家的干货内容,比如:Java后端学习路线,分享实战项目,源码分析,百万级系统设计,系统上线的一些坑,MQ专题,真实面试题,每天都会回答大家提出的问题。

这几天星球开通了3个优质专栏:痛点问题、高频面试题 和 性能优化。

图片

1.面向对象和面向过程的区别 面向过程 优点: 性能比面向对象高,因为类调用时需要实例化,开销比较大,比较消耗 资源;比如单片机、嵌入式开发、Linux/Unix 等一般采用面向过程开发,性能是 最重要的因素。 缺点: 没有面向对象易维护、易复用、易扩展 面向对象 优点: 易维护、易复用、易扩展,由于面向对象有封装、继承、多态性的特 性,可以设计出低耦合的系统,使系统更加灵活、更加易于维护 缺点: 性能比面向过程低 2. Java 语言有哪些特点 1. 简单易学; 2. 面向对象(封装,继承,多态); 3. 平台无关性( Java 虚拟机实现平台无关性); 4. 可靠性; 5. 安全性; 6. 支持多线程( C++ 语言没有内置的多线程机制,因此必须调用操作系 统的多线程功能来进行多线程程序设计,而 Java 语言却提供了多线程 支持); 7. 支持网络编程并且很方便( Java 语言诞生本身就是为简化网络编程设 计的,因此 Java 语言不仅支持网络编程而且很方便); 8. 编译与解释并存; 3. 关于 JVM JDK 和 JRE 最详细通俗的解答 JVM Java 虚拟机(JVM)是运行 Java 字节码的虚拟机。JVM 有针对不同系统的特 定实现(Windows,Linux,macOS),目的是使用相同的字节码,它们都会给 出相同的结果。 什么是字节码?采用字节码的好处是什么? 在 Java 中,JVM 可以理解的代码就叫做字节码(即扩展名为 .class 的文 件),它不面向任何特定的处理器,只面向虚拟机。Java 语言通过字节码的方 式,在一定程度上解决了传统解释型语言执行效率低的问题,同时又保留了解 释型语言可移植的特点。所以 Java 程序运行时比较高效,而且,由于字节码 并不专对一种特定的机器,因此,Java 程序无须重新编译便可在多种不同的计 算机上运行。 Java 程序从源代码到运行一般有下面 3 步: 我们需要格外注意的是 .class->机器码 这一步。在这一步 jvm 类加载器首先 加载字节码文件,然后通过解释器逐行解释执行,这种方式的执行速度会相对 比较慢。而且,有些方法和代码块是经常需要被调用的,也就是所谓的热点代 码,所以后面引进了 JIT 编译器,JIT 属于运行时编译。当 JIT 编译器完成第 一次编译后,其会将字节码对应的机器码保存下来,下次可以直接使用。而我 们知道,机器码的运行效率肯定是高于 Java 解释器的。这也解释了我们为什 么经常会说 Java 是编译与解释共存的语言。 HotSpot 采用了惰性评估(Lazy Evaluation)的做法,根据二八定律,消耗大部分 系统资源的只有那一小部分的代码(热点代码),而这也就是 JIT 所需要编译 的部分。JVM 会根据代码每次被执行的情况收集信息并相应地做出一些优化, 因此执行的次数越多,它的速度就越快。JDK 9 引入了一种新的编译模式 AOT(Ahead of Time Compilation),它是直接将字节码编译成机器码,这样就 避免了 JIT 预热等各方面的开销。JDK 支持分层编译和 AOT 协作使用。但是 , AOT 编译器的编译质量是肯定比不上 JIT 编译器的。 总结:Java 虚拟机(JVM)是运行 Java 字节码的虚拟机。JVM 有针对不同系 统的特定实现(Windows,Linux,macOS),目的是使用相同的字节码,它们 都会给出相同的结果。字节码和不同系统的 JVM 实现是 Java 语言“一次编 译,随处可以运行”的关键所在。 JDK 和 JRE JDK 是 Java Development Kit,它是功能齐全的 Java SDK。它拥有 JRE 所拥有 的一切,还有编译器(javac)和工具(如 javadoc 和 jdb)。它能够创建和编 译程序。 JRE 是 Java 运行时环境。它是运行已编译 Java 程序所需的所有内容的集合, 包括 Java 虚拟机(JVM),Java 类库,java 命令和其他的一些基础构件。但 是,它不能用于创建新程序。 如果你只是为了运行一下 Java 程序的话,那么你只需要安装 JRE 就可以了。 如果你需要进行一些 Java 编程方面的工作,那么你就需要安装 JDK 了。但 是,这不是绝对的。有时,即使您不打算在计算机上进行任何 Java 开发,仍然 需要安装 JDK。例如,如果要使用 JSP 部署 Web 应用程序,那么从技术上讲, 您只是在应用程序服务器中运行 Java 程序。那你为什么需要 JDK 呢?因为应用 程序服务器会将 JSP 转换为 Java servlet,并且需要使用 JDK 来编译 servlet。 4. Oracle JDK 和 OpenJDK 的对比 可能在看这个问题之前很多人和我一样并没有接触和使用过 OpenJDK 。那么 Oracle 和 OpenJDK 之间是否存在重大差异?下面通过我通过我收集到一些资 料对你解答这个被很多人忽视的问题。 对于 Java 7,没什么关键的地方。OpenJDK 项目主要基于 Sun 捐赠的 HotSpot 源代码。此外,OpenJDK 被选为 Java 7 的参考实现,由 Oracle 工程师维护。 关于 JVM,JDK,JRE 和 OpenJDK 之间的区别,Oracle 博客帖子在 2012 年有 一个更详细的答案: 问:OpenJDK 存储库中的源代码与用于构建 Oracle JDK 的代码之间有什么区 别? 答:非常接近 - 我们的 Oracle JDK 版本构建过程基于 OpenJDK 7 构建,只添 加了几个部分,例如部署代码,其中包括 Oracle 的 Java 插件和 Java WebStart 的实现,以及一些封闭的源代码派对组件,如图形光栅化器,一些开源的第三 方组件,如 Rhino,以及一些零碎的东西,如附加文档或第三方字体。展望未 来,我们的目的是开源 Oracle JDK 的所有部分,除了我们考虑商业功能的部 分。 总结: 1. Oracle JDK 版本将每三年发布一次,而 OpenJDK 版本每三个月发布一 次; 2. OpenJDK 是一个参考模型并且是完全开源的,而 Oracle JDK 是 OpenJDK 的一个实现,并不是完全开源的; 3. Oracle JDK 比 OpenJDK 更稳定。OpenJDK 和 Oracle JDK 的代码几乎 相同,但 Oracle JDK 有更多的类和一些错误修复。因此,如果您想开发 企业/商业软件,我建议您选择 Oracle JDK,因为它经过了彻底的测试和 稳定。某些情况下,有些人提到在使用 OpenJDK 可能会遇到了许多应 用程序崩溃的问题,但是,只需切换到 Oracle JDK 就可以解决问题; 4. 顶级公司正在使用 Oracle JDK,例如 Android Studio,Minecraft 和 IntelliJ IDEA 开发工具,其中 Open JDK 不太受欢迎; 5. 在响应性和 JVM 性能方面,Oracle JDK 与 OpenJDK 相比提供了更好的 性能; 6. Oracle JDK 不会为即将发布的版本提供长期支持,用户每次都必须通过 更新到最新版本获得支持来获取最新版本; 7. Oracle JDK 根据二进制代码许可协议获得许可,而 OpenJDK 根据 GPL v2 许可获得许可。 5. Java 和 C++的区别 我知道很多人没学过 C++,但是面试官就是没事喜欢拿咱们 Java 和 C++ 比 呀!没办法!!!就算没学过 C++,也要记下来!  都是面向对象的语言,都支持封装、继承和多态  Java 不提供指针来直接访问内存,程序内存更加安全  Java 的类是单继承的,C++ 支持多重继承;虽然 Java 的类不可以多 继承,但是接口可以多继承。  Java 有自动内存管理机制,不需要程序员手动释放无用内存 6. 什么是 Java 程序的主类 应用程序和小程序的主 类有何不同 一个程序中可以有多个类,但只能有一个类是主类。在 Java 应用程序中,这 个主类是指包含 main()方法的类。而在 Java 小程序中,这个主类是一个继 承自系统类 JApplet 或 Applet 的子类。应用程序的主类不一定要求是 public 类,但小程序的主类要求必须是 public 类。主类是 Java 程序执行的入口点。 7. Java 应用程序与小程序之间有那些差别 简单说应用程序是从主线程启动(也就是 main() 方法)。applet 小程序没有 main 方法,主要是嵌在浏览器页面上运行(调用 init()线程或者 run()来启动),嵌 入浏览器这点跟 flash 的小游戏类似。 8. 字符型常量和字符串常量的区别 1. 形式上: 字符常量是单引号引起的一个字符 字符串常量是双引号引起的 若干个字符 2. 含义上: 字符常量相当于一个整形值( ASCII 值),可以参加表达式运算 字 符串常量代表一个地址值(该字符串在内存中存放位置) 3. 占内存大小 字符常量只占 2 个字节 字符串常量占若干个字节(至少一个 字符结束标志) (注意: char 在 Java 中占两个字节) java 编程思想第四版:2.2.2 节 9. 构造器 Constructor 是否可被 override 在讲继承的时候我们就知道父类的私有属性和构造方法并不能被继承,所以 Constructor 也就不能被 override(重写),但是可以 overload(重载),所以 你可以看到一个类中有多个构造函数的情况。 10. 重载和重写的区别 重载: 发生在同一个类中,方法名必须相同,参数类型不同、个数不同、顺序 不同,方法返回值和访问修饰符可以不同,发生在编译时。 重写: 发生在父子类中,方法名、参数列表必须相同,返回值范围小于等于父 类,抛出的异常范围小于等于父类,访问修饰符范围大于等于父类;如果父类 方法访问修饰符为 private 则子类就不能重写该方法。 11. Java 面向对象编程三大特性: 封装 继承 多态 封装 封装把一个对象的属性私有化,同时提供一些可以被外界访问的属性的方法, 如果属性不想被外界访问,我们大可不必提供方法给外界访问。但是如果一个 类没有提供给外界访问的方法,那么这个类也没有什么意义了。 继承 继承是使用已存在的类的定义作为基础建立新类的技术,新类的定义可以增加 新的数据或新的功能,也可以用父类的功能,但不能选择性地继承父类。通过 使用继承我们能够非常方便地复用以前的代码。 关于继承如下 3 点请记住: 1. 子类拥有父类非 private 的属性和方法。 2. 子类可以拥有自己属性和方法,即子类可以对父类进行扩展。 3. 子类可以用自己的方式实现父类的方法。(以后介绍)。 多态 所谓多态就是指程序中定义的引用变量所指向的具体类型和通过该引用变量发 出的方法调用在编程时并不确定,而是在程序运行期间才确定,即一个引用变 量倒底会指向哪个类的实例对象,该引用变量发出的方法调用到底是哪个类中 实现的方法,必须在由程序运行期间才能决定。 在 Java 中有两种形式可以实现多态:继承(多个子类对同一方法的重写)和接 口(实现接口并覆盖接口中同一方法)。 12. String StringBuffer 和 StringBuilder 的区别 是什么 String 为什么是不可变的 可变性 简单的来说:String 类中使用 final 关键字字符数组保存字符串,private final char value[],所以 String 对象是不可变的。而 StringBuilder 与 StringBuffer 都继承自 AbstractStringBuilder 类,在 AbstractStringBuilder 中 也是使用字符数组保存字符串 char[]value 但是没有用 final 关键字修饰,所以 这两种对象都是可变的。 StringBuilder 与 StringBuffer 的构造方法都是调用父类构造方法也就是 AbstractStringBuilder 实现的,大家可以自行查阅源码。 AbstractStringBuilder.java abstract class AbstractStringBuilder implements Appendable, CharSequence { char[] value; int count; AbstractStringBuilder() { } AbstractStringBuilder(int capacity) { value = new char[capacity]; } 线程安全性 String 中的对象是不可变的,也就可以理解为常量,线程安全。 AbstractStringBuilder 是 StringBuilder 与 StringBuffer 的公共父类,定义了 一些字符串的基本操作,如 expandCapacity、append、insert、indexOf 等公 共方法。StringBuffer 对方法加了同步锁或者对调用的方法加了同步锁,所以 是线程安全的。StringBuilder 并没有对方法进行加同步锁,所以是非线程安全 的。 性能 每次对 String 类型进行改变的时候,都会生成一个新的 String 对象,然后将 指针指向新的 String 对象。StringBuffer 每次都会对 StringBuffer 对象本身 进行操作,而不是生成新的对象并改变对象引用。相同情况下使用 StringBuilder 相比使用 StringBuffer 仅能获得 10%~15% 左右的性能提升, 但却要冒多线程不安全的风险。 对于三者使用的总结: 1. 操作少量的数据 = String 2. 单线程操作字符串缓冲区下操作大量数据 = StringBuilder 3. 多线程操作字符串缓冲区下操作大量数据 = StringBuffer 13. 自动装箱与拆箱 装箱:将基本类型用它们对应的引用类型包装起来; 拆箱:将包装类型转换为基本数据类型; 14. 在一个静态方法内调用一个非静态成员为什么是 非法的 由于静态方法可以不通过对象进行调用,因此在静态方法里,不能调用其他非 静态变量,也不可以访问非静态变量成员。 15. 在 Java 中定义一个不做事且没有参数的构造 方法的作用 Java 程序在执行子类的构造方法之前,如果没有用 super() 来调用父类特定 的构造方法,则会调用父类中“没有参数的构造方法”。因此,如果父类中只定 义了有参数的构造方法,而在子类的构造方法中又没有用 super() 来调用父类 中特定的构造方法,则编译时将发生错误,因为 Java 程序在父类中找不到没 有参数的构造方法可供执行。解决办法是在父类里加上一个不做事且没有参数 的构造方法。 16. import java 和 javax 有什么区别 刚开始的时候 JavaAPI 所必需的包是 java 开头的包,javax 当时只是扩展 API 包来说使用。然而随着时间的推移,javax 逐渐的扩展成为 Java API 的组 成部分。但是,将扩展从 javax 包移动到 java 包将是太麻烦了,最终会破坏 一堆现有的代码。因此,最终决定 javax 包将成为标准 API 的一部分。 所以,实际上 java 和 javax 没有区别。这都是一个名字。 17. 接口和抽象类的区别是什么 1. 接口的方法默认是 public,所有方法在接口中不能有实现(Java 8 开始 接口方法可以有默认实现),抽象类可以有非抽象的方法 2. 接口中的实例变量默认是 final 类型的,而抽象类中则不一定 3. 一个类可以实现多个接口,但最多只能实现一个抽象类 4. 一个类实现接口的话要实现接口的所有方法,而抽象类不一定 5. 接口不能用 new 实例化,但可以声明,但是必须引用一个实现该接口 的对象 从设计层面来说,抽象是对类的抽象,是一种模板设计,接口是 行为的抽象,是一种行为的规范。 18. 成员变量与局部变量的区别有那些 1. 从语法形式上,看成员变量是属于类的,而局部变量是在方法中定义的 变量或是方法的参数;成员变量可以被 public,private,static 等修饰符所 修饰,而局部变量不能被访问控制修饰符及 static 所修饰;但是,成员 变量和局部变量都能被 final 所修饰; 2. 从变量在内存中的存储方式来看,成员变量是对象的一部分,而对象存 在于堆内存,局部变量存在于栈内存 3. 从变量在内存中的生存时间上看,成员变量是对象的一部分,它随着对 象的创建而存在,而局部变量随着方法的调用而自动消失。 4. 成员变量如果没有被赋初值,则会自动以类型的默认值而赋值(一种情 况例外被 final 修饰的成员变量也必须显示地赋值);而局部变量则不 会自动赋值。 19. 创建一个对象用什么运算符?对象实体与对象引 用有何不同? new 运算符,new 创建对象实例(对象实例在堆内存中),对象引用指向对象 实例(对象引用存放在栈内存中)。一个对象引用可以指向 0 个或 1 个对象 (一根绳子可以不系气球,也可以系一个气球);一个对象可以有 n 个引用指向 它(可以用 n 条绳子系住一个气球)。 20. 什么是方法的返回值?返回值在类的方法里的作 用是什么? 方法的返回值是指我们获取到的某个方法体中的代码执行后产生的结果!(前 提是该方法可能产生结果)。返回值的作用:接收出结果,使得它可以用于其他 的操作! 21. 一个类的构造方法的作用是什么 若一个类没有 声明构造方法,该程序能正确执行吗 ?为什么? 主要作用是完成对类对象的初始化工作。可以执行。因为一个类即使没有声明 构造方法也会有默认的不带参数的构造方法。 22. 构造方法有哪些特性 1. 名字与类名相同; 2. 没有返回值,但不能用 void 声明构造函数; 3. 生成类的对象时自动执行,无需调用。 23. 静态方法和实例方法有何不同 1. 在外部调用静态方法时,可以使用"类名.方法名"的方式,也可以使用"对 象名.方法名"的方式。而实例方法只有后面这种方式。也就是说,调用 静态方法可以无需创建对象。 2. 静态方法在访问本类的成员时,只允许访问静态成员(即静态成员变量 和静态方法),而不允许访问实例成员变量和实例方法;实例方法则无 此限制. 24. 对象的相等与指向他们的引用相等,两者有什么 不同? 对象的相等,比的是内存中存放的内容是否相等。而引用相等,比较的是他们 指向的内存地址是否相等。 25. 在调用子类构造方法之前会先调用父类没有参数 的构造方法,其目的是? 帮助子类做初始化工作。 26. == 与 equals(重要) == : 它的作用是判断两个对象的地址是不是相等。即,判断两个对象是不是同 一个对象。(基本数据类型==比较的是值,引用数据类型==比较的是内存地址) equals() : 它的作用也是判断两个对象是否相等。但它一般有两种使用情况:  情况 1:类没有覆盖 equals() 方法。则通过 equals() 比较该类的两个 对象时,等价于通过“==”比较这两个对象。  情况 2:类覆盖了 equals() 方法。一般,我们都覆盖 equals() 方法来 两个对象的内容相等;若它们的内容相等,则返回 true (即,认为这两 个对象相等)。 举个例子: public class test1 { public static void main(String[] args) { String a = new String("ab"); // a 为一个引用 String b = new String("ab"); // b 为另一个引用,对象的内容一样 String aa = "ab"; // 放在常量池中 String bb = "ab"; // 从常量池中查找 if (aa == bb) // true System.out.println("aa==bb"); if (a == b) // false,非同一对象 System.out.println("a==b"); if (a.equals(b)) // true System.out.println("aEQb"); if (42 == 42.0) { // true System.out.println("true"); } } } 说明:  String 中的 equals 方法是被重写过的,因为 object 的 equals 方法是 比较的对象的内存地址,而 String 的 equals 方法比较的是对象的值。  当创建 String 类型的对象时,虚拟机会在常量池中查找有没有已经存 在的值和要创建的值相同的对象,如果有就把它赋给当前引用。如果没 有就在常量池中重新创建一个 String 对象。 27. hashCode 与 equals(重要) 面试官可能会问你:“你重写过 hashcode 和 equals 么,为什么重写 equals 时必须重写 hashCode 方法?” hashCode()介绍 hashCode() 的作用是获取哈希码,也称为散列码;它实际上是返回一个 int 整 数。这个哈希码的作用是确定该对象在哈希表中的索引位置。hashCode() 定义 在 JDK 的 Object.java 中,这就意味着 Java 中的任何类都包含有 hashCode() 函 数。 散列表存储的是键值对(key-value),它的特点是:能根据“键”快速的检索出对应 的“值”。这其中就利用到了散列码!(可以快速找到所需要的对象) 为什么要有 hashCode 我们以“HashSet 如何检查重复”为例子来说明为什么要有 hashCode: 当你把对象加入 HashSet 时,HashSet 会先计算对象的 hashcode 值来判断 对象加入的位置,同时也会与其他已经加入的对象的 hashcode 值作比较,如 果没有相符的 hashcode,HashSet 会假设对象没有重复出现。但是如果发现有 相同 hashcode 值的对象,这时会调用 equals()方法来检查 hashcode 相 等的对象是否真的相同。如果两者相同,HashSet 就不会让其加入操作成功。 如果不同的话,就会重新散列到其他位置。(摘自我的 Java 启蒙书《Head first java》第二版)。这样我们就大大减少了 equals 的次数,相应就大大提高 了执行速度。 hashCode()与 equals()的相关规定 1. 如果两个对象相等,则 hashcode 一定也是相同的 2. 两个对象相等,对两个对象分别调用 equals 方法都返回 true 3. 两个对象有相同的 hashcode 值,它们也不一定是相等的 4. 因此,equals 方法被覆盖过,则 hashCode 方法也必须被覆盖 5. hashCode() 的默认行为是对堆上的对象产生独特值。如果没有重写 hashCode(),则该 class 的两个对象无论如何都不会相等(即使这两个 对象指向相同的数据) 28. 为什么 Java 中只有值传递 为什么 Java 中只有值传递? 29. 简述线程,程序、进程的基本概念。以及他们之 间关系是什么 线程与进程相似,但线程是一个比进程更小的执行单位。一个进程在其执行的 过程中可以产生多个线程。与进程不同的是同类的多个线程共享同一块内存空 间和一组系统资源,所以系统在产生一个线程,或是在各个线程之间作切换工 作时,负担要比进程小得多,也正因为如此,线程也被称为轻量级进程。 程序是含有指令和数据的文件,被存储在磁盘或其他的数据存储设备中,也就 是说程序是静态的代码。 进程是程序的一次执行过程,是系统运行程序的基本单位,因此进程是动态 的。系统运行一个程序即是一个进程从创建,运行到消亡的过程。简单来说, 一个进程就是一个执行中的程序,它在计算机中一个指令接着一个指令地执行 着,同时,每个进程还占有某些系统资源如 CPU 时间,内存空间,文件,文 件,输入输出设备的使用权等等。换句话说,当程序在执行时,将会被操作系 统载入内存中。 线程是进程划分成的更小的运行单位。线程和进程最大的不同 在于基本上各进程是独立的,而各线程则不一定,因为同一进程中的线程极有 可能会相互影响。从另一角度来说,进程属于操作系统的范畴,主要是同一段 时间内,可以同时执行一个以上的程序,而线程则是在同一程序内几乎同时执 行一个以上的程序段。 30. 线程有哪些基本状态? 参考《Java 并发编程艺术》4.1.4 节。 Java 线程在运行的生命周期中的指定时刻只可能处于下面 6 种不同状态的其中 一个状态。 线程在生命周期中并不是固定处于某一个状态而是随着代码的执行在不同状态 之间切换。Java 线程状态变迁如下图所示: 31 关于 final 关键字的一些总结 final 关键字主要用在三个地方:变量、方法、类。 1. 对于一个 final 变量,如果是基本数据类型的变量,则其数值一旦在初始 化之后便不能更改;如果是引用类型的变量,则在对其初始化之后便不 能再让其指向另一个对象。 2. 当用 final 修饰一个类时,表明这个类不能被继承。final 类中的所有成员 方法都会被隐式地指定为 final 方法。 3. 使用 final 方法的原因有两个。第一个原因是把方法锁定,以防任何继承 类修改它的含义;第二个原因是效率。在早期的 Java 实现版本中,会将 final 方法转为内嵌调用。但是如果方法过于庞大,可能看不到内嵌调用 带来的任何性能提升(现在的 Java 版本已经不需要使用 final 方法进行 这些优化了)。类中所有的 private 方法都隐式地指定为 final。 32 Java 中的异常处理 Java 异常类层次结构图 在 Java 中,所有的异常都有一个共同的祖先 java.lang 包中的 Throwable 类。Throwable: 有两个重要的子类:Exception(异常) 和 Error(错 误) ,二者都是 Java 异常处理的重要子类,各自都包含大量子类。 Error(错误):是程序无法处理的错误,表示运行应用程序中较严重问题。大 多数错误与代码编写者执行的操作无关,而表示代码运行时 JVM(Java 虚拟 机)出现的问题。例如,Java 虚拟机运行错误(Virtual MachineError),当 JVM 不再有继续执行操作所需的内存资源时,将出现 OutOfMemoryError。这 些异常发生时,Java 虚拟机(JVM)一般会选择线程终止。 这些错误表示故障发生于虚拟机自身、或者发生在虚拟机试图执行应用时,如 Java 虚拟机运行错误(Virtual MachineError)、类定义错误 (NoClassDefFoundError)等。这些错误是不可查的,因为它们在应用程序的 控制和处理能力之 外,而且绝大多数是程序运行时不允许出现的状况。对于设 计合理的应用程序来说,即使确实发生了错误,本质上也不应该试图去处理它 所引起的异常状况。在 Java 中,错误通过 Error 的子类描述。 Exception(异常):是程序本身可以处理的异常。Exception 类有一个重要的 子类 RuntimeException。RuntimeException 异常由 Java 虚拟机抛出。 NullPointerException(要访问的变量没有引用任何对象时,抛出该异常)、 ArithmeticException(算术运算异常,一个整数除以 0 时,抛出该异常)和 ArrayIndexOutOfBoundsException (下标越界异常)。 注意:异常和错误的区别:异常能被程序本身可以处理,错误是无法处理。 Throwable 类常用方法  public string getMessage():返回异常发生时的详细信息  public string toString():返回异常发生时的简要描述  public string getLocalizedMessage():返回异常对象的本地化信息。使 用 Throwable 的子类覆盖这个方法,可以声称本地化信息。如果子类没 有覆盖该方法,则该方法返回的信息与 getMessage()返回的结果相同  public void printStackTrace():在控制台上打印 Throwable 对象封装的 异常信息 异常处理总结  try 块:用于捕获异常。其后可接零个或多个 catch 块,如果没有 catch 块,则必须跟一个 finally 块。  catch 块:用于处理 try 捕获到的异常。  finally 块:无论是否捕获或处理异常,finally 块里的语句都会被执行。 当在 try 块或 catch 块中遇到 return 语句时,finally 语句块将在方法返回 之前被执行。 在以下 4 种特殊情况下,finally 块不会被执行: 1. 在 finally 语句块中发生了异常。 2. 在前面的代码中用了 System.exit()退出程序。 3. 程序所在的线程死亡。 4. 关闭 CPU。 33 Java 序列化中如果有些字段不想进行序列化 怎 么办 对于不想进行序列化的变量,使用 transient 关键字修饰。 transient 关键字的作用是:阻止实例中那些用此关键字修饰的的变量序列化; 当对象被反序列化时,被 transient 修饰的变量值不会被持久化和恢复。 transient 只能修饰变量,不能修饰类和方法。 34 获取用键盘输入常用的的两种方法 方法 1:通过 Scanner Scanner input = new Scanner(System.in); String s = input.nextLine(); input.close(); 方法 2:通过 BufferedReader BufferedReader input = new BufferedReader(new InputStreamReader(System.in)); String s = input.readLine();

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

奔跑吧茂林小子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值