面试官:Hashmap链表长度为8时转换成红黑树,你知道为什么是8吗

这是我2021年的第9篇原创文章,原汁原味的技术之路尽在Jerrycodes


hashmap当中有一些默认的属性其实是经过反复的推敲才确定的,今天我们说说为什么要等链表长度为8的时候才转换红黑树

  • 引言

  • hashmap结构

  • 为什么不直接用红黑树

  • 实验

  • 总结

引言

8这个阈值定义在HashMap中,如下所示,这段注释只说明了8是bin(bin就是bucket,即HashMap中hashCode值一样的元素保存的地方)从链表转成树的阈值,但是并没有说明为什么是8:

hashmap结构

JDK 1.8 的 HashMap 和 ConcurrentHashMap 都有这样一个特点:最开始的 Map 是空的,因为里面没有任何元素,往里放元素时会计算 hash 值,计算之后,第 1 个 value 会首先占用一个桶(也称为槽点)位置,后续如果经过计算发现需要落到同一个桶中,那么便会使用链表的形式往后延长,俗称 “拉链法”,如图所示:

图中,有的桶是空的, 比如第 4 个;有的只有一个元素,比如 1、3、6;有的就是刚才说的拉链法,比如第 2 和第 5 个桶。

当链表长度大于或等于阈值(默认为 8)的时候,如果同时还满足容量大于或等于 MIN_TREEIFY_CAPACITY(默认为 64)的要求,就会把链表转换为红黑树。

同样,后续如果由于删除或者其他原因调整了大小,当红黑树的节点小于或等于 6 个以后,又会恢复为链表形态。

让我们回顾一下 HashMap 的结构示意图:

在图中我们可以看到,有一些槽点是空的,有一些是拉链,有一些是红黑树。

更多的时候我们会关注,为何转为红黑树以及红黑树的一些特点,可是,为什么转化的这个阈值要默认设置为 8 呢?要想知道为什么设置为 8,那首先我们就要知道为什么要转换,因为转换是第一步。

每次遍历一个链表,平均查找的时间复杂度是 O(n),n 是链表的长度。红黑树有和链表不一样的查找性能,由于红黑树有自平衡的特点,可以防止不平衡情况的发生,所以可以始终将查找的时间复杂度控制在 O(log(n))

最初链表还不是很长,所以可能 O(n) 和 O(log(n)) 的区别不大,但是如果链表越来越长,那么这种区别便会有所体现。所以为了提升查找性能,需要把链表转化为红黑树的形式。

为什么不直接用红黑树

那为什么不一开始就用红黑树,反而要经历一个转换的过程呢?其实在 JDK 的源码注释中已经对这个问题作了解释:

Because TreeNodes are about twice the size of regular nodes,
use them only when bins contain enough nodes to warrant use
(see TREEIFY_THRESHOLD). And when they become too small (due 
removal or resizing) they are converted back to plain bins.

通过查看源码可以发现,默认是链表长度达到 8 就转成红黑树,而当长度降到 6 就转换回去,这体现了时间和空间平衡的思想.

最开始使用链表的时候,空间占用是比较少的,而且由于链表短,所以查询时间也没有太大的问题。可是当链表越来越长,需要用红黑树的形式来保证查询的效率。对于何时应该从链表转化为红黑树,需要确定一个阈值,这个阈值默认为 8,并且在源码中也对选择 8 这个数字做了说明,原文如下:


In usages with well-distributed user hashCodes, tree bins 
are rarely used.  Ideally, under random hashCodes, the 
frequency of nodes in bins follows a Poisson distribution 
(http://en.wikipedia.org/wiki/Poisson_distribution) with a 
parameter of about 0.5 on average for the default resizing 
threshold of 0.75, although with a large variance because 
of resizing granularity. Ignoring variance, the expected 
occurrences of list size k are (exp(-0.5) * pow(0.5, k) / 
factorial(k)). The first values are:
 
 0:    0.60653066
 1:    0.30326533
 2:    0.07581633
 3:    0.01263606
 4:    0.00157952
 5:    0.00015795
 6:    0.00001316
 7:    0.00000094
 8:    0.00000006
 more: less than 1 in ten million

上面这段话的意思是,如果 hashCode 分布良好,也就是 hash 计算的结果离散好的话,那么红黑树这种形式是很少会被用到的,因为各个值都均匀分布,很少出现链表很长的情况。在理想情况下,链表长度符合泊松分布,各个长度的命中概率依次递减,当长度为 8 的时候,概率仅为 0.00000006。这是一个小于千万分之一的概率,通常我们的 Map 里面是不会存储这么多的数据的,所以通常情况下,并不会发生从链表向红黑树的转换。

实验

但是,HashMap 决定某一个元素落到哪一个桶里,是和这个对象的 hashCode 有关的,JDK 并不能阻止我们用户实现自己的哈希算法,如果我们故意把哈希算法变得不均匀,例如:

@Override
public int hashCode() {
    return 1;
}

这里 hashCode 计算出来的值始终为 1,那么就很容易导致 HashMap 里的链表变得很长。让我们来看下面这段代码:

public class HashMapDemo {
 
    public static void main(String[] args) {
        HashMap map = new HashMap<HashMapDemo,Integer>(1);
        for (int i = 0; i < 1000; i++) {
            HashMapDemo hashMapDemo1 = new HashMapDemo();
            map.put(hashMapDemo1, null);
        }
        System.out.println("运行结束");
    }
 
    @Override
    public int hashCode() {
        return 1;
    }
}

在这个例子中,我们建了一个 HashMap,并且不停地往里放入值,所放入的 key 的对象,它的 hashCode 是被重写过得,并且始终返回 1。

这段代码运行时,如果通过 debug 让程序暂停在 System.out.println("运行结束") 这行语句,我们观察 map 内的节点,可以发现已经变成了 TreeNode,而不是通常的 Node,这说明内部已经转为了红黑树。

事实上,链表长度超过 8 就转为红黑树的设计,更多的是为了防止用户自己实现了不好的哈希算法时导致链表过长,从而导致查询效率低, 而此时转为红黑树更多的是一种保底策略,用来保证极端情况下查询的效率。

总结

当链表长度大于或等于阈值(默认为 8)的时候,如果同时还满足容量大于或等于 MIN_TREEIFY_CAPACITY(默认为 64)的要求,就会把链表转换为红黑树。

同样,后续如果由于删除或者其他原因调整了大小,当红黑树的节点小于或等于 6 个以后,又会恢复为链表形态。

通常如果 hash 算法正常的话,那么链表的长度也不会很长,那么红黑树也不会带来明显的查询时间上的优势,反而会增加空间负担。所以通常情况下,并没有必要转为红黑树,所以就选择了概率非常小,小于千万分之一概率,也就是长度为 8 的概率,把长度 8 作为转化的默认阈值

往期推荐

既然有公平锁,为什么还要有非公平锁

面试必问:MVCC机制了解吗

聊聊我是如何拿到这么多大厂offer的

面试官:读写锁了解吗?它的升降级啥时候用?

Jerry哥建立了一个优质的技术微信群,用于2022秋招/实习交流群,正在准备2021春招的人也可以加入。群内嘉宾有前美团技术人索隆,微软工程师C哥和已经成功上岸的J哥。欢迎大家扫码加我,备注学校+姓名+岗位,我会拉大家进群。

扫码关注我们

爆肝面试,技术剖析

### 回答1: 在Java 8中,HashMap内部使用了数组和链表来实现键值对的存储。数组用来存储桶(bucket),每个桶下面会挂一个单向链表,用来存放键值对。 当链表长度超过8HashMap会将链表化为红黑树,以提高查找效率。而数组长度的选择则是为了在不同负载因子下,保证不同的性能表现。 负载因子是指HashMap中已经存储的键值对数量与数组长度之比。当负载因子大于等于0.75HashMap会将数组长度扩大一倍,以减少哈希冲突的概率。因为随着数组长度的增加,哈希冲突的概率会逐渐降低。 而当数组长度大于等于64,每个桶的平均链表长度8HashMap会将链表化为红黑树。这是因为,当链表长度较短,使用链表比较快;但当链表长度过长,查找效率会变得很低。而使用红黑树可以将查找间从O(n)降低到O(log n),提高了HashMap的性能。具体的化条件可以看下面的代码: ``` static final int TREEIFY_THRESHOLD = 8; /** * The bin count threshold for using a tree rather than list for a * bin. Bins are converted to trees when adding an element to a * bin with at least this many nodes. The value must be greater * than 2 and should be at least 8 to mesh with assumptions in * tree removal about conversion back to plain bin. */ static final int MIN_TREEIFY_CAPACITY = 64; ``` 在Java 8中,数组长度为2的整数次幂,这样可以通过位运算来计算哈希值对数组长度取模,提高效率。因此,数组长度为64是因为它既可以容纳足够多的键值对,也可以提供足够的桶数,同在进行哈希运算也比较高效。 ### 回答2: 在HashMap中,数组的长度涉及到HashMap的扩容机制和红黑树换条件。 首先,HashMap中的数组长度决定了HashMap的存储容量,当数组中的元素个数超过数组长度的0.75倍(即负载因子为0.75)HashMap会自动触发扩容操作。扩容操作会重新计算所有元素的哈希值,然后根据新的数组长度重新散列到新的数组中。 其次,当链表长度超过8HashMap会考虑将链表换为红黑树。这是因为链表的增删操作的间复杂度为O(n),当链表长度过长,查找效率会变低。而红黑树可以保证查找、插入和删除操作的间复杂度都为O(log n),效率更高。 为了平衡存储容量和查询效率之间的关系,HashMap设置了一个阈值,即当数组的长度大于等于64,才会将链表换为红黑树。这是因为当数组长度过小,哈希冲突的概率较低,使用链表存储即可满足查询效率的要求。但当数组长度变大,哈希冲突的概率会增加,此链表换为红黑树能够更好地提高查询效率。 综上所述,HashMap中的数组长度为64才能触发链表换为红黑树的条件,是为了在满足存储容量和查询效率的前提下,平衡哈希冲突的概率和查询操作的效率。 ### 回答3: 在HashMap中,数组的长度决定了HashMap的容量。HashMap使用数组和链表的结合来实现数据存储和高效的查找。当HashMap的元素较少,直接使用数组来存储元素是最高效的,而当元素增多,就需要进行优化。 数组的长度为64之所以被选为红黑树的阈值,是因为这个值经过了大量的实验和研究得出的最优值。在这个长度的数组中,每个数组位置上的链表平均长度8,哈希查找和插入操作均能在O(1)的间复杂度内完成。 当链表长度超过8,为了维持HashMap的高效性能,就需要将链表化为红黑树红黑树是一种自平衡的二叉搜索树,它能够保证在最坏情况下,查找、插入和删除操作的间复杂度为O(log n)。通过将链表换为红黑树,可以大大提升在大容量HashMap中的操作效率。 为什么数组长度为64才换为红黑树?这是因为在链表长度较小红黑树的数据结构相对于链表来说,具有更大的存储开销。只有当链表长度超过一定阈值,将链表换为红黑树才能带来性能上的提升。而64作为阈值的选取,可以在大多数情况下平衡存储开销和性能之间的关系。 总而言之,当HashMap中的链表长度超过8,为了保持操作的高效性能,会选择将链表换为红黑树。数组长度为64是经验值,在这个长度的数组中进行换,可以在大容量HashMap中取得较好的性能表现。
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值