hashMap详解

1、hashmap的数据结构 
要知道hashmap是什么,首先要搞清楚它的数据结构,在java编程语言中,最基本的结构就是两种,一个是数组,另外一个是模拟指针(引用),所有的数据结构都可以用这两个基本结构来构造的,hashmap也不例外。Hashmap实际上是一个数组和链表的结合体(在数据结构中,一般称之为“链表散列“),请看下图(横排表示数组,纵排表示数组元素【实际上是一个链表】)。
 

26115913_Zd9B.jpg 

从图中我们可以看到一个hashmap就是一个数组结构,当新建一个hashmap的时候,就会初始化一个数组。我们来看看java代码: 

Java代码  收藏代码

  1. /** 

  2.      * The table, resized as necessary. Length MUST Always be a power of two. 

  3.      *  FIXME 这里需要注意这句话,至于原因后面会讲到 

  4.      */  

  5.     transient Entry[] table;  


Java代码  收藏代码

  1. static class Entry<K,V> implements Map.Entry<K,V> {  

  2.         final K key;  

  3.         V value;  

  4.         final int hash;  

  5.         Entry<K,V> next;  

  6. ..........  

  7. }  



        上面的Entry就是数组中的元素,它持有一个指向下一个元素的引用,这就构成了链表。 
         当我们往hashmap中put元素的时候,先根据key的hash值得到这个元素在数组中的位置(即下标),然后就可以把这个元素放到对应的位置中了。如果这个元素所在的位子上已经存放有其他元素了,那么在同一个位子上的元素将以链表的形式存放,新加入的放在链头,最先加入的放在链尾。从hashmap中get元素时,首先计算key的hashcode,找到数组中对应位置的某一元素,然后通过key的equals方法在对应位置的链表中找到需要的元素。从这里我们可以想象得到,如果每个位置上的链表只有一个元素,那么hashmap的get效率将是最高的,但是理想总是美好的,现实总是有困难需要我们去克服,哈哈~ 

2、hash算法 
我们可以看到在hashmap中要找到某个元素,需要根据key的hash值来求得对应数组中的位置。如何计算这个位置就是hash算法。前面说过hashmap的数据结构是数组和链表的结合,所以我们当然希望这个hashmap里面的元素位置尽量的分布均匀些,尽量使得每个位置上的元素数量只有一个,那么当我们用hash算法求得这个位置的时候,马上就可以知道对应位置的元素就是我们要的,而不用再去遍历链表。 

所以我们首先想到的就是把hashcode对数组长度取模运算,这样一来,元素的分布相对来说是比较均匀的。但是,“模”运算的消耗还是比较大的,能不能找一种更快速,消耗更小的方式那?java中时这样做的,
 

Java代码  收藏代码

  1. static int indexFor(int h, int length) {  

  2.        return h & (length-1);  

  3.    }  



首先算得key得hashcode值,然后跟数组的长度-1做一次“与”运算(&)。看上去很简单,其实比较有玄机。比如数组的长度是2的4次方,那么hashcode就会和2的4次方-1做“与”运算。很多人都有这个疑问,为什么hashmap的数组初始化大小都是2的次方大小时,hashmap的效率最高,我以2的4次方举例,来解释一下为什么数组大小为2的幂时hashmap访问的性能最高。 

         看下图,左边两组是数组长度为16(2的4次方),右边两组是数组长度为15。两组的hashcode均为8和9,但是很明显,当它们和1110“与”的时候,产生了相同的结果,也就是说它们会定位到数组中的同一个位置上去,这就产生了碰撞,8和9会被放到同一个链表上,那么查询的时候就需要遍历这个链表,得到8或者9,这样就降低了查询的效率。同时,我们也可以发现,当数组长度为15的时候,hashcode的值会与14(1110)进行“与”,那么最后一位永远是0,而0001,0011,0101,1001,1011,0111,1101这几个位置永远都不能存放元素了,空间浪费相当大,更糟的是这种情况中,数组可以使用的位置比数组长度小了很多,这意味着进一步增加了碰撞的几率,减慢了查询的效率!
 

26115914_6N3Q.jpg 


          所以说,当数组长度为2的n次幂的时候,不同的key算得得index相同的几率较小,那么数据在数组上分布就比较均匀,也就是说碰撞的几率小,相对的,查询的时候就不用遍历某个位置上的链表,这样查询效率也就较高了。 
          说到这里,我们再回头看一下hashmap中默认的数组大小是多少,查看源代码可以得知是16,为什么是16,而不是15,也不是20呢,看到上面annegu的解释之后我们就清楚了吧,显然是因为16是2的整数次幂的原因,在小数据量的情况下16比15和20更能减少key之间的碰撞,而加快查询的效率。 

所以,在存储大容量数据的时候,最好预先指定hashmap的size为2的整数次幂次方。就算不指定的话,也会以大于且最接近指定值大小的2次幂来初始化的,代码如下(HashMap的构造方法中):
 

Java代码  收藏代码

  1. // Find a power of 2 >= initialCapacity  

  2.         int capacity = 1;  

  3.         while (capacity < initialCapacity)   

  4.             capacity <<= 1;  





3、hashmap的resize 

       当hashmap中的元素越来越多的时候,碰撞的几率也就越来越高(因为数组的长度是固定的),所以为了提高查询的效率,就要对hashmap的数组进行扩容,数组扩容这个操作也会出现在ArrayList中,所以这是一个通用的操作,很多人对它的性能表示过怀疑,不过想想我们的“均摊”原理,就释然了,而在hashmap数组扩容之后,最消耗性能的点就出现了:原数组中的数据必须重新计算其在新数组中的位置,并放进去,这就是resize。 

         那么hashmap什么时候进行扩容呢?当hashmap中的元素个数超过数组大小*loadFactor时,就会进行数组扩容,loadFactor的默认值为0.75,也就是说,默认情况下,数组大小为16,那么当hashmap中元素个数超过16*0.75=12的时候,就把数组的大小扩展为2*16=32,即扩大一倍,然后重新计算每个元素在数组中的位置,而这是一个非常消耗性能的操作,所以如果我们已经预知hashmap中元素的个数,那么预设元素的个数能够有效的提高hashmap的性能。比如说,我们有1000个元素new HashMap(1000), 但是理论上来讲new HashMap(1024)更合适,不过上面annegu已经说过,即使是1000,hashmap也自动会将其设置为1024。 但是new HashMap(1024)还不是更合适的,因为0.75*1000 < 1000, 也就是说为了让0.75 * size > 1000, 我们必须这样new HashMap(2048)才最合适,既考虑了&的问题,也避免了resize的问题。 


4、key的hashcode与equals方法改写 
在第一部分hashmap的数据结构中,annegu就写了get方法的过程:首先计算key的hashcode,找到数组中对应位置的某一元素,然后通过key的equals方法在对应位置的链表中找到需要的元素。所以,hashcode与equals方法对于找到对应元素是两个关键方法。 

Hashmap的key可以是任何类型的对象,例如User这种对象,为了保证两个具有相同属性的user的hashcode相同,我们就需要改写hashcode方法,比方把hashcode值的计算与User对象的id关联起来,那么只要user对象拥有相同id,那么他们的hashcode也能保持一致了,这样就可以找到在hashmap数组中的位置了。如果这个位置上有多个元素,还需要用key的equals方法在对应位置的链表中找到需要的元素,所以只改写了hashcode方法是不够的,equals方法也是需要改写滴~当然啦,按正常思维逻辑,equals方法一般都会根据实际的业务内容来定义,例如根据user对象的id来判断两个user是否相等。 
在改写equals方法的时候,需要满足以下三点: 
(1) 自反性:就是说a.equals(a)必须为true。 
(2) 对称性:就是说a.equals(b)=true的话,b.equals(a)也必须为true。 
(3) 传递性:就是说a.equals(b)=true,并且b.equals(c)=true的话,a.equals(c)也必须为true。 
通过改写key对象的equals和hashcode方法,我们可以将任意的业务对象作为map的key(前提是你确实有这样的需要)。
 

总结: 
        本文主要描述了HashMap的结构,和hashmap中hash函数的实现,以及该实现的特性,同时描述了hashmap中resize带来性能消耗的根本原因,以及将普通的域模型对象作为key的基本要求。尤其是hash函数的实现,可以说是整个HashMap的精髓所在,只有真正理解了这个hash函数,才可以说对HashMap有了一定的理解。
 


转载于:https://my.oschina.net/u/2474820/blog/511456

<think>首先,理解用户的需求:用户询问“HashMap的详细解析”,并提供了几个引用,这些引用讨论了HashMap内部的哈希方法、索引定位、避免碰撞等技术细节。用户引用了[1]到[4],但这些引用是用户提供的,我需要基于它们来构建回答。 回顾系统指令: - 所有行内数学表达式必须使用$...$格式。 - 独立公式单独成段使用$$...$$。 - LaTeX语法正确。 - 使用中文回答。 - 生成相关问题。 - 回答中引用的段落末尾自然地添加引用标识,如[^1]。 用户的需求是“HashMap的详细解析”,所以我需要一个全面、结构清晰的解释。 结构化回答: 1. **介绍HashMap**:简要说明什么是HashMap,它在Java中的作用。 2. **核心组件**:解释HashMap数据结构(数组+链表/红黑树),基于引用[2]和[4]。 3. **哈希过程**:详细解释哈希方法,如扰动函数(highBits XOR lowBits),基于引用[1]和[3]。 4. **索引定位**:描述如何定位桶位置,使用(n-1) & hash,来自引用[4]。 5. **处理冲突**:解释拉链法(链表)和在JDK 8中的优化(红黑树),基于引用[4]。 6. **性能考虑**:讨论为什么这些设计能提高效率,避免哈希碰撞。 7. **其他细节**:如null键处理、扩容机制等。 确保使用中文回答。 生成相关问题:在回答结束时,添加相关问题,如系统指令所示。参考示例,相关问题应主题相关。 引用处理: - 用户提供了引用[1]到[4],所以我需要在回答中自然地引用它们。例如,当提到哈希函数的扰动时,添加[^1],当讨论索引定位时添加[^2]等。 - 引用标识应在相关段落的末尾。 数学表达式: - 如果有哈希计算的公式,如(h >>> 16) ^ h,需要用行内数学格式:$h \gg 16 \oplus h$(LaTeX语法)。在LaTeX中,异或是\oplus,移位是\gg。 - 定位公式:(n-1) & hash,写成$(n-1) \& \text{hash}$。 核心内容基于引用: - [1]:讨论了哈希值不是直接使用hashCode,而是通过扰动函数(高位移位异或)来减少碰撞。 - [2]:强调了索引定位的重要性,用于高效查找。 - [3]:展示了hash方法的代码,并提问为什么这样设计。 - [4]:概述了HashMap数据结构(数组+链表),JDK 8优化(红黑树),以及拉链法。 我的回答应整合这些信息: 1. **HashMap的定义**:HashMapJava中的哈希表实现,用于存储键值对。 2. **数据结构**:在JDK 8之前是数组+链表;之后引入红黑树优化。 3. **哈希函数**:使用扰动函数hash(Object key) { int h; return (key == null) ? 0 : h = key.hashCode() ^ (h >>> 16); }。解释为什么:避免高位差异导致的碰撞,因为索引计算忽略高位。 4. **索引计算**:index = (n-1) & hash,其中n是数组长度。 5. **冲突处理**:通过链表存储相同桶的元素;当链表过长(默认阈值8),转换为红黑树以提高性能。 6. **操作细节**:put、get、resize等。 7. **性能优化**:如引用所述,设计目标是均匀分布元素。 确保回答真实可靠:基于我对HashMap的知识,补充细节,但主要参考提供的引用。 最终结构: - 开头简要介绍。 - 分节详细解析。 - 结束时生成相关问题。 </think>### HashMap详细解析 HashMapJava 集合框架中基于哈希表实现的键值对数据结构,它提供了高效的插入、删除和查找操作(平均时间复杂度为$O(1)$)。HashMap 的核心设计目标是实现键值对的快速存,并通过哈希算法和冲突处理机制确保元素均匀分布,避免性能退化。以下我将基于您的引用内容,从底层原理到优化策略进行详细解析。解析内容包括数据结构、哈希计算、索引定位、冲突处理以及 JDK 版本差异等关键方面。 #### 1. **HashMap数据结构** HashMap 底层的核心是一个数组(称为桶数组或哈希桶),每个数组元素存储一个链表或红黑树(在 JDK 1.8 及以后)。这种设计称为“链表散列”: - **数组部分**:存储桶(buckets),每个桶对应一个哈希索引位置。数组长度(capacity)通常是 2 的幂次方(如 16、32),这简化了索引计算。 - **链表/树部分**:当多个键映射到同一个桶时,冲突元素链表形式存储;当链表长度超过阈值(默认 8)时,转换为红黑树(JDK 1.8 引入),以优化查询性能(从$O(n)$到$O(\log n)$)。例如,HashMap 的存储结构可表示为: - 数组索引:$index = (n-1) \& hash$,其中 $n$ 是数组长度,$hash$ 是扰动后的哈希值。 - 链表节点:存储键值对(entry),包含 key、value 和 next 指针。 这种结构允许快速定位桶位置,减少遍历开销[^4]。 #### 2. **哈希计算方法** HashMap 不直接使用 key 的 hashCode,而是通过一个内部扰动函数(hash 方法)重新计算哈希值。这是为了避免哈希碰撞(不同 key 映射到相同桶)。扰动函数的代码如引用所示: ```java static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); } ``` - **为什么需要扰动?** 直接使用 hashCode 可能导致高位差异大但低位相似的 key 碰撞,因为索引计算只关注低位(原因见索引定位部分)。扰动函数通过高位(h >>> 16)低位异或(^)混合,使哈希值更均匀。数学上,这相当于将高位数据“折叠”到低位:$hash = h \oplus (h \gg 16)$,其中 $\oplus$ 是异或运算。这种处理增加了哈希的离散性,减少碰撞概率[^1][^3]。 - **null 键处理**:HashMap 允许 null 键,其哈希值固定为 0(在索引 0 的桶中)[^4]。 #### 3. **索引定位机制** 定位桶位置是 HashMap 操作(如 put、get)的第一步,直接影响性能: - **索引计算公式**:$index = (n-1) \& hash$,其中 $n$ 是数组长度,$hash$ 是扰动后的哈希值。 - 为什么使用 $(n-1) \& hash$?因为 $n$ 是 2 的幂次方,$(n-1)$ 的二进制形式是全 1(例如,$n=16$时,$(16-1)=15$,二进制为 1111)。按位(&)操作等价于模运算($hash \mod n$),但效率更高。这确保了索引在数组范围内(0 到 n-1)。 - **为什么忽略高位?** 在索引计算中,高位被 $(n-1)$ 的掩码过滤掉。如果扰动缺失,高位变化大的 key 可能映射到相同索引(因为低位相同)。扰动函数确保了高位变化能影响索引结果,提升分布均匀性。这直接优化了查询效率,避免不必要的链表遍历[^2][^4]。 #### 4. **冲突处理机制** 当多个 key 映射到同一索引时,HashMap 使用“拉链法”解决冲突: - **链表存储**:冲突元素以单向链表形式存储在桶中。添加新元素时,检查 key 是否相同(通过 equals() 方法);相同则覆盖值,不同则添加链表尾部。 - **红黑树优化(JDK 1.8+)**:当链表长度超过阈值(默认 8)时,链表转换为红黑树(平衡二叉搜索树),将查询时间复杂度从$O(n)$优化到$O(\log n)$。当元素减少(树节点数小于 6)时,树退化为链表。这种优化解决了链表过长导致的性能下降问题。 - **碰撞影响**:高碰撞率会退化性能(如链表过长),扰动函数和树化机制有效缓解了这一点[^4]。 #### 5. **关键操作解析** - **put(key, value)**:计算 key 的 hash → 定位索引 → 检查桶:无元素则直接插入;有元素则遍历链表/树,比较 key(先 hash 后 equals),相同则更新,不同则添加。 - **get(key)**:类似 put,定位索引后遍历链表/树查找匹配 key。 - **resize(扩容)**:当元素数量超过阈值(capacity * loadFactor,默认 0.75)时,数组扩容一倍(如 16→32)。重新计算所有索引($(new\_n-1) \& hash$),元素迁移到新桶。扩容是开销较大的操作,但保证了平均性能。 #### 6. **性能优化和版本差异** - **JDK 1.7 vs JDK 1.8**:1.7 及之前仅使用链表,深度碰撞时性能差;1.8 引入红黑树,显著优化了查询。哈希函数扰动机制在多个版本中保持一致。 - **负载因子(loadFactor)**:默认 0.75,平衡空间和时间开销。值过高(如 1.0)增加碰撞概率;值过低(如 0.5)浪费空间。 - **为什么高效?** 扰动函数和 $(n-1) \& hash$ 计算确保了元素均匀分布,减少了遍历需求。实验显示,在均匀分布下,HashMap 的平均操作时间为常数级[^2][^4]。 #### 总结 HashMap 通过哈希算法扰动、索引定位和冲突处理(链表+树),实现了高效键值存储。扰动函数($h \oplus (h \gg 16)$)是关键创新,它解决了高位哈希差异导致的碰撞问题;而 $(n-1) \& hash$ 提供了快速索引计算。JDK 1.8 的红黑树优化进一步提升了最坏场景性能。理解这些机制有助于编写高性能的 Java 代码(如自定义对象作为 key 时,需正确覆盖 hashCode() 和 equals())。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值