最头疼的必问哈希

最新推荐文章于 2025-11-20 17:55:22 发布

原创最新推荐文章于 2025-11-20 17:55:22 发布 · 374 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java #hashmap

java基础同时被 2 个专栏收录

21 篇文章

订阅专栏

面试问答

15 篇文章

订阅专栏

HashMap 底层实现原理

HashMap 根据键的hashCode 值存储数据,大多数情况下可以直接定位到它的值.因而具有很快的访问速度,但是遍历顺序却不确定的.HashMap 最多只允许一条记录的键为null,允许多条记录的值为null。
HashMap 非线程安全,即任一时刻可以有多个线程同时写HashMap,可能会导致数据的不一致。
如果需要满足线程安全,可以用Collections 的synchronizedMap 方法使HashMap 具有线程安全的能力,或者使用ConcurrentHashMap ,HashTable.如下详细介绍。

JDK1.8 之前(数组+链表)

JDK1.8 之前HashMap 底层是数组和链表结合在一起使用,也就是链表散列.数组的长度规定是2 的幂.数组中存放的对象是Entry<key,value>对象,不允许有重复的key 存在,为什么呢?
首先,先判断key 存放的位置, HashMap 通过key 的hashCode 经过扰动函数处理过后得到hash 值,然后通过(n-1)&hash 判断当前元素存放的位置(这里的n 指的是数组的长度). 也可以理解:key%数组长度=对应数组的索引下标.然后将value 存入到entry 对象中。
所谓扰动函数知道就是HashMap 的hash 方法.使用hash 方法也就是扰动函数是为了防止一些实现比较差的hashCode()方法,换句话说使用扰动函数之后可以减少碰撞。
为什么使用(n-1)&length 长度呢?
(1) 保证数组不会越界:
首先我们要知道,在HashMap 和ConcurrentHashMap 中,数组的长度按规定一定是2 的幂(2 的n 次方)因此,数组的长度的二进制形式是:10000…000,1后面有一堆0。那么tab.length - 1 的二进制形式就是01111…111，0 后面有一堆1。最高位是0, 和hash 值相"与"，结果值一定不会比数组的长度值大,因此也就不会发生数组越界.
(2)保证元素尽可能的均匀分布
在操作的时候,链表中的元素越多,效率越低,因为要不停的对链表循环比较.所以,一定要使哈希均匀分布,尽量减少哈希冲突,提高效率。

继续存入数据
继续存入数据,还是要通过第1 步计算key 在数组中的索引位置. 如果当前位置存在元素的话,再通过key 的equal()方法判断key 是否相同,如果相同value值就会覆盖; 如果key 的equals()方法不同,则在数组对应索引位置变为链表存储新的Entry<key,value>。
拉链法

上一步说到的链表是拉链法: 将链表和数组相结合.也就是说创建一个链表数组,数组中每一格就是一个链表.若约到哈希冲突,则将冲突的值加到链表中即可.

JDK1.8 之后(数组+链表+红黑树)

如果链表的长度超过8 则转为红黑树, 当红黑树中的元素小于6 时又变为链表(有这些变化的原因就是综合时间复杂度以及空间复杂度的考虑)获取时,直接找到key 的hash 值对应的下标,在进一步用equels 方法判断key 是否相同,从而找到对应值则返回找不到则返回null。相比于之前的版本,jdk1.8 在解决哈希冲突时有了较大的变化,当链表长度大于阀值(默认为8)时,将链表转化为红黑树,以减少搜索时间。

谈一下hashMap 中什么时候需要进行扩容，扩容resize()又是如何实现的？

调用场景：

初始化数组table
当数组table 的size 达到阙值时进行扩容

实现过程：

通过判断旧数组的容量是否大于0 来判断数组是否初始化过。

如果小于0：进行初始化,判断是否调用无参构造器。

如果调用了无参构造器: 使用默认的大小和阙值<阈值12. 阀值=默认大小为16 乘以负载因子0.75。
如果没有调用无参构造器: 使用构造函数中初始化的容量, 当然这个容量是经过tableSizefor 计算后的2 的次幂数) 。

如果大于0: 进行扩容，扩容成两倍(小于最大值的情况下)，之后在进行将元素重新进行与运算复制到新的散列表中。
概括的讲：

扩容需要重新分配一个新数组，新数组是老数组的2 倍长，然后遍历整个老结构，把所有的元素挨个重新hash 分配到新结构中去。PS：可见底层数据结构用到了数组，到最后会因为容量问题都需要进行扩容操作。

ConcurrentHashMap 特点

Segment 段

ConcurrentHashMap 和HashMap 思路是差不多的，但是因为它支持并发操作，所以要复杂一些。整个ConcurrentHashMap 由一个个Segment 组成，Segment 代表”部分”或”一段“的意思，所以很多地方都会将其描述为分段锁。注意，行文中，我很多地方用了“槽”来代表一个segment。

线程安全（Segment 继承ReentrantLock 加锁）

简单理解就是，ConcurrentHashMap 是一个Segment 数组，Segment通过继承ReentrantLock 来进行加锁，所以每次需要加锁的操作锁住的是一个segment，这样只要保证每个Segment 是线程安全的，也就实现了全局的线程安全。

并行度（默认16）

concurrencyLevel：并行级别、并发数、Segment 数，怎么翻译不重要，理解它。默认是16，也就是说ConcurrentHashMap 有16 个Segments，所以理论上，这个时候，最多可以同时支持16 个线程并发写，只要它们的操作分别分布在不同的Segment 上。这个值可以在初始化的时候设置为其他值，但是一旦初始化以后，它是不可以扩容的。再具体到每个Segment 内部，其实每个Segment 很像之前介绍的HashMap，不过它要保证线程安全，所以处理起来要麻烦些。

Java8 实现（引入了红黑树）

Java8 对ConcurrentHashMap 进行了比较大的改动,Java8 也引入了红黑树

HashMap，HashTable，ConcurrentHashMap 之间的区别，及性能对比

性能：ConcurrentHashMap(线程安全) > HashMap > HashTable(线程安全)

区别对比一(HashMap 和HashTable 区别)：

1、HashMap 是非线程安全的，HashTable 是线程安全的。
2、HashMap 的键和值都允许有null 值存在，而HashTable 则不行。
3、因为线程安全的问题，HashMap 效率比HashTable 的要高。
4、Hashtable 是同步的，而HashMap 不是。因此，HashMap 更适合于单线程环境，而Hashtable 适合于多线程环境。一般现在不建议用HashTable, ①是HashTable 是遗留类，内部实现很多没优化和冗余。②即使在多线程环境下，现在也有同步的ConcurrentHashMap 替代，没有必要因为是多线程而用HashTable。

区别对比二(HashTable 和ConcurrentHashMap 区别)：

HashTable 使用的是Synchronized 关键字修饰，ConcurrentHashMap 是使用了锁分段技术来保证线程安全的。
Hashtable 中采用的锁机制是一次锁住整个hash 表，从而在同一时刻只能由一个线程对其进行操作；而ConcurrentHashMap 中则是一次锁住一个桶。
ConcurrentHashMap 默认将hash 表分为16 个桶，诸如get、put、remove等常用操作只锁住当前需要用到的桶。这样，原来只能一个线程进入，现在却能同时有16 个写线程执行，并发性能的提升是显而易见的。