Java集合总结

qq_32133965

于 2019-04-09 10:09:40 发布

阅读量486

点赞数

CC 4.0 BY-SA版权

分类专栏：集合

本文链接：https://blog.youkuaiyun.com/qq_32133965/article/details/89136022

集合专栏收录该内容

1 篇文章

订阅专栏

本文深入解析了Java中集合类的原理和特点，包括HashMap、Hashtable、TreeMap、HashSet、TreeSet、ArrayList、LinkedList、Vector和Stack。探讨了HashMap与Hashtable的区别，以及如何确保线程安全。

集合

hashmap、hashset、list区别，能否存储null，hashmap和hashtable区别

集合

hashmap、hashset、list区别，能否存储null，hashmap和hashtable区别

HashMap

（1）概述原理

HashMap继承于AbstractMap类，实现了Map接口。Map是"key-value键值对"接口，AbstractMap实现了"键值对"的通用函数接口。
HashMap是通过"拉链法"实现的哈希表。它包括几个重要的成员变量：table, size, threshold, loadFactor, modCount。
- table是一个Entry[]数组类型，而Entry实际上就是一个单向链表。哈希表的"key-value键值对"都是存储在Entry数组中的。
- size是HashMap的大小，它是HashMap保存的键值对的数量。
- threshold是HashMap的阈值，用于判断是否需要调整HashMap的容量。threshold的值="容量*加载因子"，当HashMap中存储数据的数量达到threshold时，就需要将HashMap的容量加倍。
- loadFactor就是加载因子。
- modCount是用来实现fail-fast机制的。
HashMap 的实例有两个参数影响其性能：“初始容量” 和 “加载因子”。
- 容量是哈希表中桶的数量，初始容量只是哈希表在创建时的容量。
  - 桶容量默认为16。即为2的4次方，之所以这样做是因为当计算桶位置的时候可以把取余操作变为位与操作，位运算(&)效率要比代替取模运算(%)高很多。X % 2^n = X & (2^n – 1)。
- 加载因子是哈希表在其容量自动增加之前可以达到多满的一种尺度。当哈希表中的条目数超出了加载因子与当前容量的乘积时，则要对该哈希表进行 rehash 操作（即重建内部数据结构），从而哈希表将具有大约两倍的桶数。
  - 通常，默认加载因子是 0.75, 这是在时间和空间成本上寻求一种折衷。加载因子过高虽然减少了空间开销，但同时也增加了查询成本（在大多数 HashMap 类的操作中，包括 get 和 put 操作，都反映了这一点）。在设置初始容量时应该考虑到映射中所需的条目数及其加载因子，以便最大限度地减少 rehash 操作次数。如果初始容量大于最大条目数除以加载因子，则不会发生 rehash 操作。
  - 扩容时容量变为初始容量的两倍，原因：扩为原来的两倍后，再次取模的时候直接看那个次高位是0还是1，
    - 元素hash值第N+1位为0：不需要进行位置调整
    - 元素hash值第N+1位为1：调整至原索引的两倍位置
在JDK1.6，JDK1.7中，HashMap采用位桶+链表实现，即使用链表处理冲突，同一hash值的链表都存储在一个链表里。但是当位于一个桶中的元素较多，即hash值相等的元素较多时，通过key值依次查找的效率较低。JDK1.8中，HashMap采用位桶+链表+红黑树实现，当链表长度超过阈值（8）时，将链表转换为红黑树，这样大大减少了查找时间。
对key的hashCode进行计算时，防止不同hashCode的高位不同但低位相同导致的hash冲突。把高位的特征和低位的特征组合起来（高位与低位相与，然后再计算hash值），降低哈希冲突的概率，也就是说，尽量做到任何一位的变化都能对最终得到的结果产生影响。

（2）特点

HashMap是一个散列表，它存储的内容是键值对(key-value)映射。
HashMap 继承于AbstractMap，实现了Map、Cloneable、java.io.Serializable接口。
HashMap 不是线程安全的。
它的key、value都可以为null。
此外，HashMap中的映射不是有序的。

（3）什么场景下hashmap是不安全的？

put的时候导致的多线程数据不一致。
- 这个问题比较好想象，比如有两个线程A和B，首先A希望插入一个key-value对到HashMap中，首先计算记录所要落到的桶的索引坐标，然后获取到该桶里面的链表头结点，此时线程A的时间片用完了，而此时线程B被调度得以执行，和线程A一样执行，只不过线程B成功将记录插到了桶里面，假设线程A插入的记录计算出来的桶索引和线程B要插入的记录计算出来的桶索引是一样的，那么当线程B成功插入之后，线程A再次被调度运行时，它依然持有过期的链表头但是它对此一无所知，以至于它认为它应该这样做，如此一来就覆盖了线程B插入的记录，这样线程B插入的记录就凭空消失了，造成了数据不一致的行为。
另外一个比较明显的线程不安全的问题是HashMap的get操作可能因为resize而引起死循环（cpu100%）
- resize的核心内容主要是遍历每个桶中的链表上的节点，计算其新的索引位置，并迁移过去。
  - 对索引数组中的元素遍历
  - 对链表上的每一个节点遍历：用 next 取得要转移那个元素的下一个，将 e 转移到新 Hash 表的头部，使用头插法插入节点。
  - 循环2，直到链表节点全部转移
  - 循环1，直到所有索引数组全部转移

http://www.importnew.com/22011.html
- 此时桶中的顺序是3-7，线程1执行e=3，e.next=7的时候时间片用完；
- 线程2执行完扩容过程，即此时桶中的顺序为7-3；
- 线程1继续执行，将3挪到扩容后的桶中；然后将7挪到新的桶中，此时新的桶中的顺序为7-3；但此时7的next是3，于是再次将3利用头插法挪到新的桶中，于是就出现了3的next为7，但是之前7的next又是3，于是出现了环状结构，等下次遍历链表的时候就发现出现了死循环。。。。

（5）hashmap的key有要求吗？自定义的类可以作为key吗？

可以。用自定义类作为key，必须重写equals()和hashCode()方法。自定义类中的equals() 和 hashCode()都继承自Object类。

Object类的hashCode()方法返回这个对象存储的内存地址的编号；而equals()比较的是内存地址是否相等。

（6）为什么重写了equals方法，一定要重写hashcode方法

在java的集合中，判断两个对象是否相等的规则是：
- 1.判断两个对象的hashCode是否相等，如果不相等，认为两个对象也不相等，完毕；如果相等，转入2（这一点只是为了提高存储效率而要求的，其实理论上没有也可以，但如果没有，实际使用时效率会大大降低，所以我们这里将其做为必需的。）
- 2.判断两个对象用equals运算是否相等，如果不相等，认为两个对象也不相等；如果相等，认为两个对象相等（equals()是判断两个对象是否相等的关键）
- 为什么是两条准则，难道用第一条不行吗？不行，因为前面已经说了，hashcode()相等时，equals()方法也可能不等，所以必须用第2条准则进行限制，才能保证加入的为非重复元素。

Hashtable

（1）概述原理

与hashmap的底层结构是差不多的，然后方法中基本都加了锁，所以线程同步的。除此之外hashtable默认的初始大小为11，之后扩容时每次扩充为原来的2n+1。取模运算并不是位于运算。

（2）特点

Hashtable也是一个散列表，它存储的内容是键值对(key-value)映射。

Hashtable 继承于Dictionary，实现了Map、Cloneable、java.io.Serializable接口。

Hashtable 的函数都是同步的，这意味着它是线程安全的。

它的key、value都不可以为null。

此外，Hashtable中的映射不是有序的。

TreeMap

（1）特点

TreeMap是一个有序的key-value集合，它是通过红黑树实现的。

TreeMap 继承于AbstractMap，所以它是一个Map，即一个key-value集合。

TreeMap 实现了NavigableMap接口，意味着它支持一系列的导航方法。比如返回有序的key集合。

TreeMap 实现了Cloneable接口，意味着它能被克隆。

TreeMap 实现了java.io.Serializable接口，意味着它支持序列化。

TreeMap基于红黑树（Red-Black tree）实现。该映射根据其键的自然顺序进行排序，或者根据创建映射时提供的 Comparator 进行排序，具体取决于使用的构造方法。

TreeMap的基本操作 containsKey、get、put 和 remove 的时间复杂度是 log(n) 。

另外，TreeMap是非同步的。它的iterator 方法返回的迭代器是fail-fastl的。

hashset

（1）原理及特点

HashSet 是一个没有重复元素的集合。

它是由HashMap实现的，不保证元素的顺序，而且HashSet允许使用 null 元素。

HashSet是非同步的。

treeset

（1）特点

TreeSet 是一个有序的集合，它的作用是提供有序的Set集合。它继承于AbstractSet抽象类，实现了NavigableSet<E>, Cloneable, java.io.Serializable接口。

TreeSet 继承于AbstractSet，所以它是一个Set集合，具有Set的属性和方法。

TreeSet 实现了NavigableSet接口，意味着它支持一系列的导航方法。比如查找与指定目标最匹配项。

TreeSet 实现了Cloneable接口，意味着它能被克隆。

TreeSet 实现了java.io.Serializable接口，意味着它支持序列化。

TreeSet是基于TreeMap实现的。TreeSet中的元素支持2种排序方式：自然排序或者根据创建TreeSet 时提供的 Comparator 进行排序。这取决于使用的构造方法。

TreeSet为基本操作（add、remove 和 contains）提供受保证的 log(n) 时间开销。

另外，TreeSet是非同步的。它的iterator 方法返回的迭代器是fail-fast的。

ArrayList

（1）原理

ArrayList包含了两个重要的对象：elementData 和 size。

elementData 是"Object[]类型的数组"，它保存了添加到ArrayList中的元素。实际上，elementData是个动态数组，我们能通过构造函数 ArrayList(int initialCapacity)来执行它的初始容量为initialCapacity；如果通过不含参数的构造函数ArrayList()来创建ArrayList，则elementData的容量默认是10。elementData数组的大小会根据ArrayList容量的增长而动态的增长，具体的增长方式，请参考源码分析中的ensureCapacity()函数。
size 则是动态数组的实际大小。
当ArrayList容量不足以容纳全部元素时，ArrayList会重新设置容量：新的容量=“(原始容量x3)/2 + 1”。
ArrayList的克隆函数，即是将全部元素克隆到一个数组中。
ArrayList实现java.io.Serializable的方式。当写入到输出流时，先写入“容量”，再依次写入“每一个元素”；当读出输入流时，先读取“容量”，再依次读取“每一个元素”。

（2）特点

ArrayList 是一个数组队列，相当于 动态数组。与Java中的数组相比，它的容量能动态增长。

ArrayList 继承了AbstractList，实现了List。它是一个数组队列，提供了相关的添加、删除、修改、遍历等功能。

ArrayList 实现了RandmoAccess接口，即提供了随机访问功能。RandmoAccess是java中用来被List实现，为List提供快速访问功能的。在ArrayList中，我们即可以通过元素的序号快速获取元素对象；这就是快速随机访问。

ArrayList 实现了Cloneable接口，即覆盖了函数clone()，能被克隆。

ArrayList 实现java.io.Serializable接口，这意味着ArrayList支持序列化，能通过序列化去传输。

和Vector不同，ArrayList中的操作不是线程安全的！所以，建议在单线程中才使用ArrayList，而在多线程中可以选择Vector或者CopyOnWriteArrayList。

LinkedList

LinkedList 是一个继承于AbstractSequentialList的双向链表。它也可以被当作堆栈、队列或双端队列进行操作。
LinkedList 实现 List 接口，能对它进行队列操作。
LinkedList 实现 Deque 接口，即能将LinkedList当作双端队列使用。
LinkedList 实现了Cloneable接口，即覆盖了函数clone()，能克隆。
LinkedList 实现java.io.Serializable接口，这意味着LinkedList支持序列化，能通过序列化去传输。
LinkedList 是非同步的。

Vector

Vector 是矢量队列，它是JDK1.0版本添加的类。
Vector 继承了AbstractList，实现了List；所以，它是一个队列，支持相关的添加、删除、修改、遍历等功能。
Vector 实现了RandmoAccess接口，即提供了随机访问功能。
Vector 实现了Cloneable接口，即实现clone()函数。它能被克隆。
和ArrayList不同，Vector中的操作是线程安全的。

Stack

Stack是栈。它的特性是：先进后出(FILO, First In Last Out)。

java工具包中的Stack是继承于Vector(矢量队列)的，由于Vector是通过数组实现的，这就意味着，Stack也是通过数组实现的，而非链表。意味着Vector拥有的属性和功能，Stack都拥有。

hashmap和hashtable的区别

继承和实现方式不同：HashMap 继承于AbstractMap，实现了Map、Cloneable、java.io.Serializable接口。Hashtable 继承于Dictionary，实现了Map、Cloneable、java.io.Serializable接口。

线程安全不同

Hashtable的几乎所有函数都是同步的，即它是线程安全的，支持多线程。而HashMap的函数则是非同步的，它不是线程安全的。若要在多线程中使用HashMap，需要我们额外的进行同步处理。对HashMap的同步处理可以使用Collections类提供的synchronizedMap静态方法，或者直接使用JDK 5.0之后提供的java.util.concurrent包里的ConcurrentHashMap类。

对null值的处理不同

HashMap的key、value都可以为null。
Hashtable的key、value都不可以为null。

支持的遍历种类不同

HashMap只支持Iterator(迭代器)遍历。而Hashtable支持Iterator(迭代器)和Enumeration(枚举器)两种方式遍历。

Enumeration 是JDK 1.0添加的接口，只有hasMoreElements(), nextElement() 两个API接口，不能通过Enumeration()对元素进行修改。
而Iterator 是JDK 1.2才添加的接口，支持hasNext(), next(), remove() 三个API接口。HashMap也是JDK 1.2版本才添加的，所以用Iterator取代Enumeration，HashMap只支持Iterator遍历。

通过Iterator迭代器遍历时，遍历的顺序不同

HashMap是“从前向后”的遍历数组；再对数组具体某一项对应的链表，从表头开始进行遍历。
Hashtabl是“从后往前”的遍历数组；再对数组具体某一项对应的链表，从表头开始进行遍历。

容量的初始值和增加方式都不一样

HashMap默认的初始化大小为16，之后每次扩充为原来的2倍。
HashTable默认的初始大小为11，之后每次扩充为原来的2n+1。
当哈希表的大小为素数时，简单的取模哈希的结果会更加均匀，所以单从这一点上看，HashTable的哈希表大小选择，似乎更高明些。因为hash结果越分散效果越好。
在取模计算时，如果模数是2的幂，那么我们可以直接使用位运算来得到结果，效率要大大高于做除法。所以从hash计算的效率上，又是HashMap更胜一筹。
但是，HashMap为了提高效率使用位运算代替哈希，这又引入了哈希分布不均匀的问题，所以HashMap为解决这问题，又对hash算法做了一些改进，进行了扰动计算。