哈希表/散列表数据结构 | B站Java学习笔记

最新推荐文章于 2023-09-02 14:17:19 发布

原创最新推荐文章于 2023-09-02 14:17:19 发布 · 274 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#java

哈希表是数组和单向链表的结合，利用hashCode()和equals()方法实现高效查询与增删。HashMap底层即为哈希表，当哈希碰撞发生时，元素会挂载到相同数组下标的链表上。若key重复，value会被覆盖。为确保HashMap性能，key需重写hashCode()和equals()方法，以保证散列分布均匀。JDK8以后，链表长度超过8会转为红黑树，提高查找效率。

HashMap集合底层是哈希表/散列表的数据结构
哈希表是一个怎样的数据结构呢？
哈希表是一个数组和单向链表的结合体
数组：在查询方面效率很高，随机增删方面效率很低
单向链表：在随机增删方面效率较高，在查询方法效率很低
哈希表将以上的两种数据结构融合在一起，充分发挥他们各自的优点
哈希表：一维数组，这个数组中每一个元素是一个单向链表

map.put(k, v)实现原理：

第一步：先将k,v封装到Node对象当中
第二步：底层会调用k的hashCode()方法得出hash值，然后通过哈希函数/哈希算法，将hash值转换成数组的下标，下标位置上如果没有任何元素，就把Node添加到这个位置上了。如果说，下标对应的位置上有链表，此时会拿着k和链表上每一个节点中的k进行equals，如果所有的equals方法返回都是false，那么这个新节点将会被添加到链表的末尾，如果其中有一个equals返回了true，那么这个节点的value将会被覆盖。

v = map.get(k)实现原理：

第一步：先调用k的hashCode()方法得出哈希值，通过哈希算法转换成数组下标，通过数组下标快速定位到某个位置上，如果这个位置上什么也没有，返回null，如果这个位置上有单向链表，那么会拿着参数k和单向链表上的每个节点中的k进行equals，如果所有equals方法返回false，那么get方法返回null，只要其中有一个节点的k和参数k equals的时候返回true，那么此时这个节点的value就是我们要找的value，get方法最终返回这个要找的value

补充拓展：hash值可以不一样，因为有取余的过程，如果取余的结果是一样的，就代表了都位列在同一个数组下标里。
比如：7 % 3 = 1； 4 % 3 = 1；这个叫哈希碰撞

为什么哈希表的随机增删，以及查询效率都很高？

增删是在链表上完成
查询也不需要都扫描，只需要部分扫描

重点：通过讲解可以得出HashMap集合的key，会先后调用两个方法，一个方法是hashCode(), 一个方法是equals(), 那么这两个方法都需要重写

为什么放在HashMap集合key部分的元素需要重写equals方法呢？

HashMap集合的key部分特点：
无序，不可重复。
为什么无序？因为不一定挂到哪个单向链表上。
不可重复是怎么保证的？equals方法来保证HashMap集合的key不可重复
如果key重复了，value会覆盖。

放在HashMap集合key部分的元素其实就是放到HashSet集合中了。
所以HashSet集合中的元素也需要同时重写hashCode()+equals()方法

注意：同一个单向链表上所有节点的hash相同，因为他们的数组下标是一样的。但同一个链表上k和k的equals方法肯定返回的是false，都不相等。

hashCode()方法需要重写，在重写时，返回一个固定值可以吗？会出现什么问题？

哈希表HashMap使用不当时无法发挥性能！
假设将所有的hashCode()方法返回值固定为某个值，那么会导致底层哈希表变成了纯单向链表。这种情况我们称为：散列分布不均匀。
什么是散列分布均匀？

假设有100个元素，10个单向链表，那么每个单向链表上有10个节点，这是最好的，是散列分布均匀的。
假设将所有的hashCode()方法返回值都设定为不一样的值，可以吗，有什么问题？
回答：不行，因为这样的话导致底层哈希表成为一对数组了，没有链表的概念了。也是散列分布不均匀

散列分布均匀需要你重写hashCode()方法时有一定的技巧。

重点：放在HashMap集合key部分的元素，以及放在HashSet集合中的元素，需要同时重写hashCode和equals方法

HashMap集合的默认初始化容量是16，默认加载因子是0.75
这个默认加载因子是当HashMap集合底层数组的容量达到75%，数组开始扩容
重点：HashMap集合初始化容量必须是2的倍数，这也是官方推荐的，这是因为达到散列均匀，为了提高HashMap集合的存取效率，所必须的

向集合中存，以及从Map集合中取，都是先调用key的hashCode方法，然后再调用equals方法。
equals方法有可能调用，也有可能不调用。
拿put(k,v)举例，什么时候equals不会调用？数组下标位置上如果是null，equals不需要执行。
拿get(k)举例，什么时候equals不会调用？数组下标位置上如果是null，equals不需要执行。

注意：如果一个类的equals方法重写了，那么hashCode()方法必须重写。并且equals方法返回如果是true，hashCode()方法返回的值必须一样
equals方法返回true，表示两个对象相同，在同一个单向链表上比较。
那么对于同一个单向链表上的节点来说，他们的哈希值都是相同的，所以hashCode()方法的返回值也应该相同。

终极结论：
放在HashMap集合key部分的，以及放在HashSet集合中的元素，需要同时重写hashCode方法，和equals方法。

在JDK8之后，如果哈希表单向链表中元素超过8个，单向链表这种数据结构会变成红黑树数据结构。
当红黑树上的节点数量小于6时，会重新把红黑树变成单向链表数据结构。（变成树就有点二分法查找的意思了）
这种方式也是为了提高检索效率，二叉树的检索会再次缩小扫描范围，提高效率。

public class HashMapTest01 {
	public static void main(String[] args) {
		Map<Integer, String> map = new HashMap<>();
		map.put(1111, "zhangsan");
		map.put(6666, "lisi");
		map.put(7777, "wangwu");
		map.put(2222, "zhaoliu");
		map.put(2222, "king"); //key重复的时候value会自动覆盖

		System.out.println(map.size()); //4

		//遍历Map集合
		Set<Map.Entry<Integer, String>> set = map.entrySet();
		for(Map.Entry<Integer, String> entry : set) {
			System.out.println(entry.getKet() + "=" + entry.getValue());
		}
	}
}