尚硅谷java笔记——Map

原创已于 2022-04-07 10:00:02 修改 · 301 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java

于 2022-04-07 09:50:18 首次发布

自学Java 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了Map的实现类结构，重点关注了HashMap和Hashtable的区别。HashMap是非线程安全、效率较高的数据结构，而Hashtable则是线程安全但效率较低。HashMap允许null键和值，而Hashtable不允许。在容量和扩充方面，HashMap的默认初始大小为11，每次扩充为2n+1，而Hashtable默认16，每次扩充为2倍。JDK1.8后，HashMap在链表长度超过8时转为红黑树，而Hashtable没有此机制。HashMap的容量必须是2的幂次方，以优化取模运算并提高效率。

Map的实现类的结构：

|----Map:双列数据，存储key-value对的数据   
         |----HashMap:作为Map的主要实现类；线程不安全的，效率高；存储null的key和value。
              |----LinkedHashMap:保证在遍历map元素时，可以按照添加的顺序实现遍历。
                      原因：在原有的HashMap底层结构基础上，添加了一对指针，指向前一个和后一个元素。
                      对于频繁的遍历操作，此类执行效率高于HashMap。
         |----TreeMap:保证按照添加的key-value对进行排序，实现排序遍历。此时考虑key的自然排序或定制排序。
                      底层使用红黑树。
         |----Hashtable:作为古老的实现类；线程安全的，效率低；不能存储null的key和value。
              |----Properties:常用来处理配置文件。key和value都是String类型。

HashMap的底层：数组+链表  （jdk7及之前）    数组+链表+红黑树 （jdk 8）

Map结构的理解：

Map中的key:无序的、不可重复的，使用Set存储所有的key  ---> key所在的类要重写equals()和hashCode() （以HashMap为例）
Map中的value:无序的、可重复的，使用Collection存储所有的value --->value所在的类要重写equals()(因为containsValue()方法)
    一个键值对：key-value构成了一个Entry对象。
Map中的entry:无序的、不可重复的，使用Set存储所有的entry

HashMap的底层实现原理？以jdk7为例说明：

 HashMap map = new HashMap():
      在实例化以后，底层创建了长度是16的一维数组Entry[] table。
      ...可能已经执行过多次put...
      map.put(key1,value1):
      首先，调用key1所在类的hashCode()计算key1哈希值，此哈希值经过某种算法计算以后，得到在Entry数组中的存放位置。
      如果此位置上的数据为空，此时的key1-value1添加成功。 ----情况1
      如果此位置上的数据不为空，(意味着此位置上存在一个或多个数据(以链表形式存在)),比较key1和已经存在的一个或多个数据的哈希值：
      如果key1的哈希值与已经存在的数据的哈希值都不相同，此时key1-value1添加成功。----情况2
      如果key1的哈希值和已经存在的某一个数据(key2-value2)的哈希值相同，继续比较：调用key1所在类的equals(key2)方法，比较：
          如果equals()返回false:此时key1-value1添加成功。----情况3
          如果equals()返回true:使用value1替换value2。
补充：关于情况2和情况3：此时key1-value1和原来的数据以链表的方式存储。

在不断的添加过程中，会涉及到扩容问题，当超出临界值(且要存放的位置非空)时，扩容。默认的扩容方式：扩容为原来容量的2倍，并将原有的数据复制过来。
      jdk8 相较于jdk7在底层实现方面的不同：
      1. new HashMap():底层没有创建一个长度为16的数组
      2. jdk 8底层的数组是：Node[],而非Entry[]
      3. 首次调用put()方法时，底层创建长度为16的数组
      4. jdk7底层结构只有：数组+链表。jdk8中底层结构：数组+链表+红黑树。
         4.1 形成链表时，七上八下（jdk7:新的元素指向旧的元素。jdk8：旧的元素指向新的元素）
         4.2 当数组的某一个索引位置上的元素以链表形式存在的数据个数 > 8 且当前数组的长度 > 64时，此时此索引位置上的所数据改为使用红黑树存储。

DEFAULT_INITIAL_CAPACITY : HashMap的默认容量，16
DEFAULT_LOAD_FACTOR：HashMap的默认加载因子：0.75
threshold：扩容的临界值，=容量*填充因子：16 * 0.75 => 12
TREEIFY_THRESHOLD：Bucket中链表长度大于该默认值，转化为红黑树:8
MIN_TREEIFY_CAPACITY：桶中的Node被树化时最小的hash表容量:64

Map中定义的方法：
添加、删除、修改操作：
Object put(Object key,Object value)：将指定key-value添加到(或修改)当前map对象中
void putAll(Map m):将m中的所有key-value对存放到当前map中
Object remove(Object key)：移除指定key的key-value对，并返回value
void clear()：清空当前map中的所有数据
元素查询的操作：
Object get(Object key)：获取指定key对应的value
boolean containsKey(Object key)：是否包含指定的key
boolean containsValue(Object value)：是否包含指定的value
int size()：返回map中key-value对的个数
boolean isEmpty()：判断当前map是否为空
boolean equals(Object obj)：判断当前map和参数对象obj是否相等
元视图操作的方法：
Set keySet()：返回所有key构成的Set集合
Collection values()：返回所有value构成的Collection集合
Set entrySet()：返回所有key-value对构成的Set集合

*总结：常用方法：
* 添加：put(Object key,Object value)
* 删除：remove(Object key)
* 修改：put(Object key,Object value)
* 查询：get(Object key)
* 长度：size()
* 遍历：keySet() / values() / entrySet()

HashMap 和 Hashtable 的区别

线程是否安全： HashMap 是非线程安全的，Hashtable 是线程安全的。
效率： 因为线程安全的问题，HashMap 要比 Hashtable 效率高一点。
对 Null key 和 Null value 的支持： HashMap 可以存储 null 的 key 和 value，但 null 作为键只能有一个，null 作为值可以有多个；Hashtable 不允许有 null 键和 null 值，否则会抛出 NullPointerException。
初始容量大小和每次扩充容量大小的不同： ① 创建时如果不指定容量初始值，Hashtable 默认的初始大小为 11，之后每次扩充，容量变为原来的 2n+1。HashMap 默认的初始化大小为 16。之后每次扩充，容量变为原来的 2 倍。② 创建时如果给定了容量初始值，那么 Hashtable 会直接使用你给定的大小，而 HashMap 会将其扩充为 2 的幂次方大小（HashMap 中的tableSizeFor()方法保证）。也就是说 HashMap 总是使用 2 的幂作为哈希表的大小。
底层数据结构： JDK1.8 以后的 HashMap 在解决哈希冲突时有了较大的变化，当链表长度大于阈值（默认为 8）（将链表转换成红黑树前会判断，如果当前数组的长度小于 64，那么会选择先进行数组扩容，而不是转换为红黑树）时，将链表转化为红黑树，以减少搜索时间。Hashtable 没有这样的机制。

Q：HashMap的容量为什么要是2的幂次方？

为了能让 HashMap 存取⾼效，尽量减少碰撞，也就是要尽量把数据分配均匀。我们上⾯也讲到了过了，Hash 值的范围值-2147483648到2147483647，前后加起来⼤概40亿的映射空间，只要哈希函数映射得比较均匀松散，⼀般应⽤是很难出现碰撞的。但问题是⼀个40亿⻓度的数组，内存是放不下的。所以这个散列值是不能直接拿来⽤的。⽤之前还要先做对数组的⻓度取模运算，得到的余数才能⽤来要存放的位置也就是对应的数组下标。这个数组下标的计算⽅法是“ (n - 1) & hash ”。（n代表数组⻓度）。这也就解释了 HashMap 的⻓度为什么是2的幂次方。
这个算法应该如何设计呢？我们首先可能会想到采⽤%取余的操作来实现。但是，重点来了：“取余(%)操作中如果除数是2的幂次则等价于与其除数减⼀的与(&)操作（也就是说 hash%lengthdehash&(length-1)的前提是 length 是2的n 次方）。” 并且采⽤二进制位操作 &，相对于%能够提⾼运算效率，这就解释了 HashMap 的⻓度为什么是2的幂次方。