Java集合框架详解：HashMap、HashSet与数据结构-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_44427262/article/details/119719224

java集合基础知识：
1）java容器：
常见容器主要包括 Collection 和 Map 两种，Collection 存储着对象的集合，而 Map存储着键值对（两个对象）的映射表。
Collection：
Set：
(1) TreeSet：基于红黑树实现，支持有序性操作。底层是TreeMap。添加的数据存入了map的key的位置，而value则固定是PRESENT。TreeSet中的元素是有序且不重复的，因为TreeMap中的key是有序且不重复的。
（2）HashSet：基于哈希表实现，支持快速查找，但不支持有序性操作。并且失去了元素的插入顺序信息，也就是说使用 Iterator 遍历 HashSet 得到的结果是不确定的。
（3）LinkedHashSet：具有 HashSet 的查找效率，且内部使用双向链表维护元素的插入顺序。
List：
（1）ArrayList：基于动态数组实现，支持随机访问。
（2）Vector：和 ArrayList 类似，但它是线程安全的。
（3）LinkedList：基于双向链表实现，只能顺序访问，但是可以快速地在链表中间插入和删除元素。不仅如此，LinkedList 还可以用作栈、队列和双向队列。
Queue：
（1）LinkedList：可以用它来实现双向队列。
（2）PriorityQueue：基于堆结构实现，可以用它来实现优先队列。
Map
（1）TreeMap：基于红黑树实现。
（2）HashMap：基于哈希表实现。
（3）HashTable：和 HashMap 类似，但它是线程安全的，这意味着同一时刻多个线程可以同时写入 HashTable 并且不会导致数据不一致。它是遗留类，不应该去使用它。现在可以使用 ConcurrentHashMap 来支持线程安全，并且 ConcurrentHashMap 的效率会更高，因为 ConcurrentHashMap 引入了分段锁。
（4）LinkedHashMap：使用双向链表来维护元素的顺序，顺序为插入顺序或者最近最少使用（LRU）顺序。
2）红黑树简介：
红黑树又称红-黑二叉树，是一颗自平衡的排序二叉树。
二叉树需要满足一个基本性质–即树中的任何节点的值大于它的左子节点，且小于它的右子节点。按照这个基本性质使得树的检索效率大大提高。
平衡二叉树必须具备如下特性：它是一棵空树或它的左右两个子树的高度差的绝对值不超过1，并且左右两个子树都是一棵平衡二叉树。也就是说该二叉树的任何一个等等子节点，其左右子树的高度都相近。
红黑树顾名思义就是节点是红色或者黑色的平衡二叉树，它通过颜色的约束来维持着二叉树的平衡。对于一棵有效的红黑树二叉树而言我们必须增加如下规则：
1、每个节点都只能是红色或者黑色。
2、根节点是黑色。
3、每个叶节点（NIL节点，空节点）是黑色的。
4、如果一个结点是红的，则它两个子节点都是黑的。也就是说在一条路径上不能出现相邻的两个红色结点。
5、从任一节点到其每个叶子的所有路径都包含相同数目的黑色节点。
这些约束强制了红黑树的关键性质: 从根到叶子的最长的可能路径不多于最短的可能路径的两倍长。结果是这棵树大致上是平衡的。因为操作比如插入、删除和查找某个值的最坏情况时间都要求与树的高度成比例，这个在高度上的理论上限允许红黑树在最坏情况下都是高效的，而不同于普通的二叉查找树。所以红黑树它是复杂而高效的，其检索效率O(log n)。
2）数组和链表的区别：
数组：是将元素在内存中连续存储的。它的优点是：内存地址连续，查找数据快；缺
点：在存储之前，需要申请一块连续的内存空间，并且在编译时就必须确定好它的空间大小。在运行的时候，空间的大小是无法跟随你的需要进行增加和减少的，当数据较大的时候，有可能出现越界的情况；数据比较小的时候，又有可能会浪费内存空间。在改变数据个数时，增加、插入和删除数据的效率较低。
链表：是动态申请内存空间的，不需要像数组那样提前申请好内存的大小，链表根据需要来动态的申请或者删除内存空间，对于数据的增加和删除以及插入操作比数组灵活。链表中的数据可以在内存中的任意位置，通过元素的指针来关联。
应用场景：
数组的应用场景：数据比较少、经常做的运算是按序号访问的数据元素、数组更容易实现、构建的线性表较稳定。
链表的应用场景：对线性表的长度或者规模难以估计；频繁做插入删除操作；构建动态性较强的线性表。
3）ArrayList 和 LinkedList 的区别？
ArrayList：底层是基于数组实现的，查找快，增删较慢；
LinkedList：底层是基于链表实现的。确切的说是双向链表，查找慢、增删快。
4）HashMap相关：
数据结构：
Jdk1.8：Node 数组 + 链表/红黑树，当链表上的元素个数超过 8 个并且数组长度 >= 64
时自动转化成红黑树，节点变成树节点，以提高搜索效率和插入效率到 O(logN)。
get 和 put 方法流程：
（1）put方法的流程：
当我们想往一个 HashMap 中添加一对 key-value 时，系统首先会计算 key 的 hash值，然后根据 hash 值确认在 table 中存储的位置。若该位置没有元素，则直接插入。否则迭代该处元素链表并依次比较其 key 的 hash 值。如果两个 hash 值相等且 key 值相等(e.hash == hash && ((k = e.key) == key || key.equals(k)))，则用新的 Entry 的 value覆盖原来节点的 value。如果两个 hash 值相等但 key 值不等，则将该节点插入该链表的链头。
（2）get方法的流程：
通过 key 的 hash 值找到在 table 数组中的索引处的 Entry，然后返回该 key 对应的value 即可。
在这里能够根据 key 快速的取到 value 除了和 HashMap 的数据结构密不可分外，还和 Entry 有莫大的关系。HashMap 在存储过程中并没有将 key，value 分开来存储，而是当做一个整体 key-value 来处理的，这个整体就是Entry 对象。同时 value 也只相当于key 的附属而已。在存储的过程中，系统根据 key 的 hashcode 来决定 Entry 在 table 数组中的存储位置，在取的过程中同样根据 key 的 hashcode 取出相对应的 Entry 对象（value 就包含在里面）。
5) HashMap 的 get 方法能否判断某个元素是否在 map 中？
HashMap 的 get 函数的返回值不能判断一个 key 是否包含在 map 中，因为 get 返回 null 有可能是不包含该 key，也有可能该 key 对应的 value 为 null。因为 HashMap中允许 key 为 null，也允许 value 为 null。
6) HashSet 的底层实现是什么?
通过看源码知道 HashSet 的实现是依赖于 HashMap 的，HashSet 的值都是存储在
HashMap 中的。在 HashSet 的构造方法中会初始化一个 HashMap 对象，HashSet 不允许值重复。因此，HashSet 的值是作为 HashMap 的 key 存储的，当存储的值已经存在时返回 false。
7）迭代器：
Iterator 是什么？
迭代器是一种设计模式，它是一个对象，它可以遍历并选择序列中的对象，而开发人员不需要了解该序列的底层结构。迭代器通常被称为“轻量级”对象，因为创建它的代价小。
Iterator 怎么使用？有什么特点？
Java 中的 Iterator 功能比较简单，并且只能单向移动：
(1) 使用方法 iterator() 要求容器返回一个 Iterator。第一次调用 Iterator 的 next() 方法时，它返回序列的第一个元素。注意：iterator() 方法是 java.lang.Iterable 接口，被Collection继承。
(2) 使用 next() 获得序列中的下一个元素。
(3) 使用 hasNext() 检查序列中是否还有元素。
(4) 使用 remove() 将迭代器新返回的元素删除。Iterator 是 Java 迭代器最简单的实现，为 List 设计的 ListIterator 具有更多的功能，它可以从两个方向遍历 List，也可以从 List 中插入和删除元素。
Iterator 和 ListIterator 有什么区别？
Iterator 可用来遍历 Set 和 List 集合，但是 ListIterator 只能用来遍历 List。 Iterator对集合只能是前向遍历，ListIterator 既可以前向也可以后向。 ListIterator 实现了Iterator 接口，并包含其他的功能，比如：增加元素，替换元素，获取前一个和后一个元素的索引等等。
8）HashTable：
HashTable 和 HashMap 的实现原理几乎一样，差别无非是
1、HashTable 不允许 key 和 value 为 null；
2、HashTable 是线程安全的。但是 HashTable 线程安全的策略实现代价却太大了，简单
粗暴，get/put 所有相关操作都是 synchronized 的，这相当于给整个哈希表加了一把大锁，多线程访问时候，只要有一个线程访问或操作该对象，那其他线程只能阻塞，相当于将所有的操作串行化，在竞争激烈的并发场景中性能就会非常差。
9）HashMap 与 HashTable 的区别是什么?
1．HashTable 基于 Dictionary 类，而 HashMap 是基于 AbstractMap。Dictionary 是任何可将键映射到相应值的类的抽象父类，而 AbstractMap 是基于 Map 接口的实现，它以最大限度地减少实现此接口所需的工作。
2．HashMap 的 key 和 value 都允许为 null，而 Hashtable 的 key 和 value 都不允许为null。HashMap 遇到 key 为 null 的时候，调用 putForNullKey 方法进行处理，而对value 没有处理；Hashtable 遇到 null，直接返回 NullPointerException。
3．Hashtable 是线程安全的，而 HashMap 不是线程安全的，但是我们也可以通过
Collections.synchronizedMap(hashMap)，使其实现同步。
10）如何让HashMap变成线程安全的？
1.替换成Hashtable，Hashtable通过对整个表上锁实现线程安全，因此效率比较低。
2.使用Collections类的synchronizedMap方法包装一下。方法如下：
public static <K,V> Map<K,V> synchronizedMap(Map<K,V> m) 返回由指定映射支持的同步（线程安全的）映射。
3.使用ConcurrentHashMap，它使用分段锁来保证线程安全。
通过前两种方式获得的线程安全的HashMap在读写数据的时候会对整个容器上锁，而ConcurrentHashMap并不需要对整个容器上锁，它只需要锁住要修改的部分就行了。

大数据秋招学习笔记15