为什么HashMap负载因子达到0.75 就要扩容?

最新推荐文章于 2024-05-13 07:01:19 发布

原创最新推荐文章于 2024-05-13 07:01:19 发布 · 1.3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Java基础同时被 2 个专栏收录

30 篇文章

订阅专栏

3 篇文章

订阅专栏

探讨HashMap为何选择0.75作为加载因子，与泊松分布的关系，及为何此值能平衡时间和空间成本。

为什么选择了0.75作为HashMap的加载因子呢？这个跟一个统计学里很重要的原理——泊松分布有关。

描述单位时间内随机事件发生的次数的概率分布。

$P(N(t) = n) = \frac{(\lambda t)^{n} e^{-\lambda t}}{n!}$

P 表示概率，N表示某种函数关系，t 表示时间，n 表示数量，λ 表示事件的频率。

随机哈希码，在扩容阈值（加载因子）为0.75的情况下，节点出现在频率在Hash桶（表）中遵循参数平均为0.5的泊松分布。

忽略方差则 lambda * t = 0.5 此时

$P(N(t) = n) = \frac{(0.5)^{n} e^{-0.5}}{n!}$

* 0: 0.60653066

* 1: 0.30326533

* 2: 0.07581633

* 3: 0.01263606

* 4: 0.00157952

* 5: 0.00015795

* 6: 0.00001316

* 7: 0.00000094

* 8: 0.00000006

* more: less than 1 in ten million

也就是哈希冲突链表节点数目大于8的概率小于千万分之一，可以认为不会发生(那么为啥还要转红黑树呢？查询消耗并不大？)

为什么不可以是0.8或者0.6?

选择0.75作为默认的加载因子，完全是时间和空间成本上寻求的一种折衷选择。

当负载因子为0.75时，空间利用率比较高，避免了相当多的Hash冲突。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。