HashMap扰动函数解读

最新推荐文章于 2025-10-13 15:20:27 发布

原创最新推荐文章于 2025-10-13 15:20:27 发布 · 1.3w 阅读

CC 4.0 BY-SA版权

文章标签：

0 篇文章

订阅专栏

本文深入探讨了HashMap在put()方法中如何通过扰动函数和与运算计算key的位置，解释了扰动函数的作用及其实现原理，以及与运算在解决散列值映射空间过大问题中的应用。

本篇围绕put()方法寻找key所在数组位置的过程而讨论。在put()时，主要有两段代码来计算key的位置：1.扰动函数；2.与运算

扰动函数：

static final int hash(Object key) {
        int h;
        return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }

解读：

答：扰动函数就是解决碰撞问题。若不使用扰动函数，则直接将key.hashCode()和下面的步骤2做与运算，则会有以下情景。

以初始长度16为例，16-1=15。2进制表示是00000000 00000000 00001111。和某散列值做“与”操作如下，结果就是截取了最低的四位值。

这样就算散列值分布再松散，要是只取最后几位的话，碰撞也会很严重。如果散列本身做得不好，分布上成等差数列的漏洞，恰好使最后几个低位呈现规律性重复，则碰撞会更严重。

答：由扰动函数源码可知，会有以下步骤：①使用key.hashCode()计算hash值并赋值给变量h；②将h向右移动16位；③将变量h和向右移16位的h做异或运算（二进制位相同为0，不同为1）。此时得到经过扰动函数后的hansh值。图解如下：

答：右移16位正好为32bit的一半，自己的高半区和低半区做异或，是为了混合原始哈希吗的高位和低位，来加大低位的随机性。而且混合后的低位掺杂了高位的部分特征，使高位的信息也被保留下来

2.与运算

static int indexFor(int h, int length){
     return h & (length - 1);
}

解读：

答：若直接使用key.hashCode()计算出hash值，则范围为：-2147483648到2147483648，大约40亿的映射空间。若映射得比较均匀，是很难出现碰撞的。但是这么大范围无法放入内存中，况且HashMap的初始容量为16。所以必须要进行与运算取模。

9 条评论

tianyue712 2022.09.13
扰动函数为什么会减少碰撞？有什么理论依据吗？我网上查了一下没一个能说服我的理由？最多就是有一个10万个单词实验，有扰动函数和没扰动函数冲突不一样，但是我认为这个数值和10万个单词的选择有关。至于楼主你举得例子只是一种情况，也可能没扰动函数的时候不冲突，扰动后反而冲突。
- 班班_回复tianyue712 2022.11.16
  但是不同数据地位相同的概率更大，比如32和32的倍数，低位都是相同的啊
- tianyue712回复班班_ 2022.11.04
  也可能本来低位16位不一样，没有hash冲突，但是用高16位来参与反而冲突了，至少我自己测试来看两种情况没看出来哪种好。至于你的说法我网络上看了很多相同的，但并不能说服我
- 班班_回复tianyue712 2022.09.28
  高16位和低位或与，让这个数据的整个数据都参与hash，可以更有效避免哈希冲突，比如两个数据低16位是一样的，那么hashcode是一样的会hash冲突，但是扰动之后，高16位也参与了，减少了hash冲突