- hash和HashMap基础知识
hash算法:
把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。常用 HASH 函数:直接取余法、乘法取整法、平方取中法。
hash冲突 :
因为不同的输入可能会散列成相同的输出,这种现象称为hash冲突。当对某个元素进行哈希运算,得到一个存储地址,然后要进行插入的时候,发现已经被其他元素占用了,其实这就是所谓的哈希冲突,也叫哈希碰撞。哈希函数的设计至关重要,好的哈希函数会尽可能地保证 计算简单和散列地址分布均匀,但是,我们需要清楚的是,数组是一块连续的固定长度的内存空间,再好的哈希函数也不能保证得到的存储地址绝对不发生冲突。那么哈希冲突如何解决呢?哈希冲突的解决方案有多种:开放定址法(发生冲突,继续寻找下一块未被占用的存储地址),再散列函数法,链地址法,而HashMap即是采用了链地址法,也就是数组+链表(jdk1.8中是数组+链表+红黑树)的方式。
HashMap:
HashMap 是一个利用哈希表原理来存储元素的集合。遇到冲突时,HashMap 是采用的链地址法来解决,在 JDK1.7 中,HashMap 是由 数组+链表构成的。但是在 JDK1.8 中,HashMap 是由数组+链表+红黑树构成,新增了红黑树作为底层数据结构,结构变得复杂了,但是效率也变的更高效.
HashMap中用到的数据结构:
- 数组:采用一段连续的存储单元来存储数据。对于指定下标的查找,时间复杂度为O(1);通过给定值进行查找,需要遍历数组,逐一比对给定关键字和数组元素,时间复杂度为O(n),当然,对于有序数组,则可采用二分查找,插值查找,斐波那契查找等方式,可将查找复杂度提高为O(logn);对于一般的插入删除操作,涉及到数组元素的移动,其平均复杂度也为O(n)
- 线性链表:对于链表的新增,删除等操作(在找到指定操作位置后),仅需处理结点间的引用即可,时间复杂度为O(1),而查找操作需要遍历链表逐一进行比对,复杂度为O(n)
- 二叉树:对一棵相对平衡的有序二叉树,对其进行插入,查找,删除等操作,平均复杂度均为O(logn)。

- HashMap源码分析
HashMap 是一个散列表,它存储的内容是键值对(key-value)映射,而且 key 和 value 都可以为 null。它的源码如下:
public class HashMap<K,V> extends AbstractMap<K,V> implements Map<K,V>, Cloneable, Serializable{
//字段属性
//默认 HashMap 集合初始容量为16(必须是 2 的倍数)
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
//集合的最大容量,如果通过带参构造指定的最大容量超过此数,默认还是使用此数
static final int MAXIMUM_CAPACITY = 1 << 30;
//默认的填充因子
static final float DEFAULT_LOAD_FACTOR = 0.75f;
//当桶(bucket)上的结点数大于这个值时会转成红黑树(JDK1.8新增)
static final int TREEIFY_THRESHOLD = 8;
//当桶(bucket)上的节点数小于这个值时会转成链表(JDK1.8新增)
static final int UNTREEIFY_THRESHOLD = 6;
/**(JDK1.8新增) * 当集合中的容量大于这个值时,表中的桶才能进行树形化 ,否则桶内元素太多时会扩
容, * 而不是树形化 为了避免进行扩容、树形化选择的冲突,这个值不能小于 4 * TREEIFY_THRESHOLD */
static final int MIN_TREEIFY_CAPACITY = 64;
//初始化使用,长度总是 2的幂
transient Node<K,V>[] table;
//保存缓存的entrySet()
transient Set<Map.Entry<K,V>> entrySet;
//此映射中包含的键值映射的数量。(集合存储键值对的数量)
transient int size;
/*** 跟前面ArrayList和LinkedList集合中的字段modCount一样,记录集合被修改的次数 * 主要用于
迭代器中的快速失败 */
transient int modCount;
//调整大小的下一个大小值(容量*加载因子)。capacity * load factor
int threshold;
//散列表的加载因子。
final float loadFactor;
//构造方法
/*** 默认构造函数,初始化加载因子loadFactor = 0.75 */
public HashMap() {
this.loadFactor = DEFAULT_LOAD_FACTOR;
}
/**** @param initialCapacity 指定初始化容量 * @param loadFactor 加载因子 0.75 */
public HashMap(int initialCapacity, float loadFactor) {
//初始化容量不能小于 0 ,否则抛出异常
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " + initialCapacity);
//如果初始化容量大于2的30次方,则初始化容量都为2的30次方
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
//如果加载因子小于0,或者加载因子是一个非数值,抛出异常
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " + loadFactor);
this.loadFactor = loadFactor;
//tableSizeFor()的主要功能是返回一个比给定整数大且最接近的2的幂次方整数,如给定10,返回
2 的4次方16.
this.threshold = tableSizeFor(initialCapacity);
}
// 返回大于等于initialCapacity的最小的二次幂数值。
// >>> 操作符表示无符号右移,高位取0。
// | 按位或运算
static final int tableSizeFor(int cap) {
int n = cap - 1;
n |= n >>> 1;
n |= n >>> 2;
n |= n >>> 4;
n |= n >>> 8;
n |= n >>> 16;
return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
}
//添加元素
//hash(key)获取Key的哈希值,equls返回为true,则两者的hashcode一定相等,意即相等的对象必须具
有相等的哈希码。
public V put(K key, V value) {
return putVal(hash(key), key, value, false, true);
}
/**** @param hash Key的哈希值 * @param key 键 * @param value 值 * @param onlyIfAbsent
true 表示不要更改现有值 * @param evict false表示table处于创建模式 * @return */
final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) {
Node<K,V>[] tab;
Node<K,V> p;
int n, i;
//如果table为null或者长度为0,则进行初始化
//resize()方法本来是用于扩容,由于初始化没有实际分配空间,这里用该方法进行空间分配,后面 会详细讲解该方法
if ((tab = table) == null || (n = tab.length) == 0)
n = (tab = resize()).length;
//(n - 1) & hash:确保索引在数组范围内,相当于hash % n 的值
//通过 key 的 hash code 计算其在数组中的索引:为什么不直接用 hash 对 数组长度取模?因 为除法运算效率低
if ((p = tab[i = (n - 1) & hash]) == null)
tab[i] = newNode(hash, key, value, null);
//tab[i] 为null,直接将新的key- value插入到计算的索引i位置
else {
//tab[i] 不为null,表示该位置已经有值了
Node<K,V> e;
K k;
//e节点表示已经存在Key的节点,需要覆盖value的节点
//table[i]的首个元素是否和key一样,如果相同直接覆盖value
if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k))))
e = p;
//节点key已经有值了,将第一个节点赋值给e
//该链是红黑树
else if (p instanceof TreeNode)
e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
//该链是链表
else {
//遍历链表
for (int binCount = 0; ; ++binCount) {
//先将e指向下一个节点,然后判断e是否是链表中最后一个节点
if ((e = p.next) == null) {
//创建一个新节点加在链表结尾
p.next = newNode(hash, key, value, null);
//链表长度大于8,转换成红黑树
if (binCount >= TREEIFY_THRESHOLD - 1)
// -1
for 1st treeifyBin(tab, hash); break;
}
//key已经存在直接终止,此时e的值已经为 p.next
if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k))))
break;
p = e;
}
}
if (e != null) {
// existing mapping for key
V oldValue = e.value;
if (!onlyIfAbsent || oldValue == null)
//修改已经存在Key的节点的value
e.value = value;
afterNodeAccess(e);
//返回key的原始值
return oldValue;
}
}
++modCount;
//用作修改和新增快速失败
if (++size > threshold)
//超过最大容量,进行扩容
resize();
afterNodeInsertion(evict);
return null;
}
//获取元素
public V get(Object key) {
// 若key为null,遍历table[0]处的链表(实际上要么没有元素,要么只有一个Entry对象),取出 key为null的value
if (key == null)
return getForNullKey();
// 若key不为null,用key获取Entry对象
Entry<K,V> entry = getEntry(key);
// 若链表中找到的Entry不为null,返回该Entry中的value
return null == entry ? null : entry.getValue();
}
final Entry<K,V> getEntry(Object key) {
if (size == 0) {
return null;
}
// 计算key的hash值
int hash = (key == null) ? 0 : hash(key);
// 计算key在数组中对应位置,遍历该位置的链表
for (Entry<K,V> e = table[indexFor(hash, table.length)]; e != null; e = e.next) {
Object k;
// 若key完全相同,返回链表中对应的Entry对象
if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k))))
return e;
}
// 链表中没找到对应的key,返回null
return null;
}
//扩容
final Node<K,V>[] resize() {
//将原始数组数据缓存起来
Node<K,V>[] oldTab = table;
int oldCap = (oldTab == null) ? 0 : oldTab.length;
//原数组如果为null,则长度赋值 0
int oldThr = threshold;
int newCap, newThr = 0;
if (oldCap > 0) {
//如果原数组长度大于0
if (oldCap >= MAXIMUM_CAPACITY) {
//数组大小如果已经大于等于最大值(2^30)
threshold = Integer.MAX_VALUE;
//修改阈值为int的最大值(2^31-1),这样以后就 不会扩容了
return oldTab;
}
//原数组长度扩大1倍(此时将原数组扩大一倍后的值赋给newCap)也小于2^30次方,并且原数组
长度大于等于初始化长度16
else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY)
newThr = oldThr << 1;
// double threshold
// 阀值扩大1倍 //如果原数组长度扩大一倍后大于MAXIMUM_CAPACITY后,newThr还是0
}else if (oldThr > 0)
// initial capacity was placed in threshold
//旧容量为0,旧阀值大于0,则将新容量直接等于就阀值
//在第一次带参数初始化时候会有这种情况
//newThr在面算
newCap = oldThr;
else {
// zero initial threshold signifies using defaults
//阀值等于0,oldCap也等于0(集合未进行初始化)
//在默认无参数初始化会有这种情况
newCap = DEFAULT_INITIAL_CAPACITY;
//数组长度初始化为16
newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
//阀值等于 16*0.75=12
}
//计算新的阀值上限
//此时就是上面原数组长度扩大一倍后大于MAXIMUM_CAPACITY和旧容量为0、旧阀值大于0的情况
if (newThr == 0) {
float ft = (float)newCap * loadFactor;
newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE);
}
//将阀值上限设置为新阀值上限
threshold = newThr;
//用于抑制编译器产生警告信息
@SuppressWarnings({"rawtypes","unchecked"})
//创建容器大小为newCap的新数组
Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
//将新数组赋给table table = newTab;
//如果是第一次,扩容的时候,也就是原来没有元素,下面的代码不会运行,如果原来有元素,则要将原来 的元素,进行放到新扩容的里面
if (oldTab != null) {
//把每个bucket都移动到新的buckets中
for (int j = 0; j < oldCap; ++j) {
Node<K,V> e;
if ((e = oldTab[j]) != null) {
oldTab[j] = null;
//元数据j位置置为null,便于垃圾回收
if (e.next == null)
//数组没有下一个引用(不是链表)
//直接将e的key的hash与新容量重新计算下标,新下标的元素为e
newTab[e.hash & (newCap - 1)] = e;
else if (e instanceof TreeNode)
//红黑树
((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
else {
// preserve order
Node<K,V> loHead = null, loTail = null;
Node<K,V> hiHead = null, hiTail = null;
Node<K,V> next;
do {
next = e.next;
//原索引
if ((e.hash & oldCap) == 0) {
if (loTail == null)
loHead = e;
else
loTail.next = e;
loTail = e;
}
//原索引+oldCap
else {
if (hiTail == null)
hiHead = e;
else
hiTail.next = e;
hiTail = e;
}
} while ((e = next) != null);
//原索引放到bucket里
if (loTail != null) {
loTail.next = null;
newTab[j] = loHead;
}
//原索引+oldCap放到bucket里
if (hiTail != null) {
hiTail.next = null;
newTab[j + oldCap] = hiHead;
}
}
}
}
return newTab;
}
}
字段属性
①、Node[] table
我们说 HashMap 是由数组+链表+红黑树组成,这里的数组就是 table 字段。后面对其进行初始化长度默DEFAULT_INITIAL_CAPACITY= 16。
②、size
集合中存放key-value 的实时对数。
③、loadFactor
装载因子,是用来衡量 HashMap 满的程度,计算HashMap的实时装载因子的方法为:size/capacity,而不是占用桶的数量去除以capacity。capacity 是桶的数量,也就是 table 的长度length。默认的负载因子0.75 是对空间和时间效率的一个平衡选择,建议大家不要修改,除非在时间和空间比较特殊的情况下,如果内存空间很多而又对时间效率要求很高,可以降低负载因子loadFactor 的值;相反,如果内存空间紧张而对时间效率要求不高,可以增加负载因子 loadFactor 的值,这个值可以大于1。
④、threshold
计算公式:threshold = capacity * loadFactor。这个值是当前已占用数组长度的最大值。过这个数目就重新resize(扩容),扩容后的 HashMap 容量是之前容量的两倍。
数组table中的节点元素是一个Entry类型的,对象,实体类代码如下:
static class Entry<K,V> implements Map.Entry<K,V> {
final K key; V value;
/** 指向下一个元素的引用 */
Entry<K,V> next;
int hash;
/*** 构造方法为Entry赋值 */
Entry(int h, K k, V v, Entry<K,V> n) {
value = v;
next = n;
key = k;
hash = h;
}
}
添加元素
添加过程:
①、判断键值对数组 table 是否为空或为null,否则执行resize()进行扩容;
②、根据键值key计算hash值得到插入的数组索引i,如果table[i]==null,直接新建节点添加,转向
⑥,如果table[i]不为空,转向③;
③、判断table[i]的首个元素是否和key一样,如果相同直接覆盖value,否则转向④,这里的相同指的是hashCode以及equals;
④、判断table[i] 是否为treeNode,即table[i] 是否是红黑树,如果是红黑树,则直接在树中插入键值对,否则转向⑤;
⑤、遍历table[i],判断链表长度是否大于8,大于8的话把链表转换为红黑树,在红黑树中执行插入操作,否则进行链表的插入操作;遍历过程中若发现key已经存在直接覆盖value即可;
⑥、插入成功后,判断实际存在的键值对数量size是否超过了最大容量threshold,如果超过,进行扩容。
put()时,HashMap会先遍历table数组,用hash值和equals()判断数组中是否存在完全相同的key对象, 如果这个key对象在table数组中已经存在,就用新的value代替老的value。如果不存在,就创建一个新的Entry对象添加到table[ i ]处。如果该table[ i ]已经存在其他元素,那么新Entry对象将会储存在bucket链表的表头,通过next指向原有的Entry对象,形成链表结构(hash碰撞解决方案)。
if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) 此处先判断p.hash == hash是为了提高效率,仅通过(k =e.key) == key || key.equals(k)其实也可以进行判断,但是equals方法相当耗时!如果两个key的hash值不同,那么这两个key肯定不相同,进行equals比较是扯淡的! 所以先通过p.hash == hash该条件,将桶中很多不符合的节点pass掉。然后对剩下的节点继续判断。
形成单链表的关键代码如下:
/** * 将Entry添加到数组bucketIndex位置对应的哈希桶中,并判断数组是否需要扩容 */
void addEntry(int hash, K key, V value, int bucketIndex) {
// 如果数组长度大于等于容量×负载因子,并且要添加的位置为null
if ((size >= threshold) && (null != table[bucketIndex])) {
// 长度扩大为原数组的两倍
resize(2 * table.length);
hash = (null != key) ? hash(key) : 0;
bucketIndex = indexFor(hash, table.length);
}
createEntry(hash, key, value, bucketIndex);
}
/** * 在链表中添加一个新的Entry对象在链表的表头 */
void createEntry(int hash, K key, V value, int bucketIndex) {
Entry<K,V> e = table[bucketIndex];
table[bucketIndex] = new Entry<>(hash, key, value, e);
size++;
}
假设数组长度分别为15和16,优化后的hash码分别为8和9,那么&运算后的结果如下:
h & (table.length-1) hash & table.length-1
8 & (15-1): 0100 & 1110 = 0100
9 & (15-1): 0101 & 1110 = 0100
-----------------------------------------------------------------------
8 & (16-1): 0100 & 1111 = 0101
9 & (16-1): 0101 & 1111 = 0101
从上面的例子中可以看出:当它们和15-1(1110)“与”的时候,产生了相同的结果,也就是说它们会定 位到数组中的同一个位置上去,这就产生了碰撞,8和9会被放到数组中的同一个位置上形成链表,那么查询的时候就需要遍历这个链表,得到8或者9,这样就降低了查询的效率。同时,我们也可以发现,当数组长度为15的时候,hash 值会与15-1(1110)进行“与”,那么最后一位永远是0,而0001,0011,0101,1001,1011,0111,1101这几个位置永远都不能存放元素了,空间浪费相当大,更糟的是 这种情况中,数组可以使用的位置比数组长度小了很多,这意味着进一步增加了碰撞的几率,减慢了查询的效率!
当n为2次幂时,会满足一个公式:(n - 1) & hash = hash % n,计算更加高效。
只有是2的幂数的数字经过n-1之后,二进制肯定是 ...11111111 这样的格式,这种格式计算的位置的时候,完全是由产生的hash值类决定。
奇数n-1为偶数,偶数2进制的结尾都是0,经过&运算末尾都是0,会 增加hash冲突。
获取元素
如果两个不同的key的hashcode相同,两个值对象储存在同一个bucket位置,要获取value,我们调用get()方法,HashMap会使用key的hashcode找到bucket位置,因为HashMap在链表中存储的是Entry键值对,所以找到bucket位置之后,会调用key的equals()方法,按顺序遍历链表的每个 Entry,直到找到想获取的 Entry 为止——如果恰好要搜索的 Entry 位于该 Entry 链的最末端(该 Entry 是最早放入该 bucket 中),那HashMap必须循环到最后才能找到该元素。
扩容
扩容(resize),集合是由数组+链表+红黑树构成,向 HashMap 中插入元素时,如果HashMap 集合的元素已经大于了最大承载容量threshold(capacity * loadFactor),这里的threshold不是数组的最大长度。那么必须扩大数组的长度,Java中数组是无法自动扩容的,采用的方法是用一个更大的数组代替这个小的数组。
从上述代码可知:if ((e.hash & oldCap) == 0)如果判断成立,那么该元素的地址在新的数组中就不会改变。因为oldCap的最高位的1,在e.hash对应的位上为0,所以扩容后得到的地址是一样的,位置不会改变 ,在后面的代码的执行中会放到loHead中去,最后赋值给newTab[j];如果判断不成立,那么该元素的地址变为 原下标位置+oldCap,也就是lodCap最高位的1,在e.hash对应的位置上也为1,所以扩容后的地址改变了,在后面的代码中会放到hiHead中,最后赋值给newTab[j + oldCap]。
jdk1.7中扩容带来的问题:数组扩容之后,最消耗性能的点就出现了:原数组中的数据必须重新计算其在新数组中的位置,并放进去,这个操作是极其消耗性能的。所以如果我们已经预知HashMap中元素的个数,那么预设初始容量能够有效的提高HashMap的性能。重新调HashMap大小,当多线程的情况下可能产生条件竞争。因为如果两个线程都发现HashMap需要重新调整大小了,它们会同时试着调整大小。在调整大小的过程中,存储在链表中的元素的次序会反过来,因为移动到新的bucket位置的时候,HashMap并不会将元素放在链表的尾部,而是放在头部,这是为了避免尾部遍历(tail traversing)。如果条件竞争发生了,那么就死循环了。
HashMap性能问题
HashMap有两个参数影响其性能:初始容量和负载因子。均可以通过构造方法指定大小。容量capacity是HashMap中bucket哈希桶(Entry的链表)的数量,初始容量只是HashMap在创建时的容量,最大设置初始容量是2^30,默认初始容量是16(必须为2的幂),解释一下,当数组长度为2的n次幂的时候,不同的key通过indexFor()方法算得的数组位置相同的几率较小,那么数据在数组上分布就比较均匀,也就是说碰撞的几率小,相对的,get()的时候就不用遍历某个位置上的链表,这样查询效率也就较高了。负载因子loadFactor是HashMap在其容量自动增加之前可以达到多满的一种尺度,默认值是0.75。
HashMap并发安全问题
在jdk1.8中对HashMap进行了优化,在发生hash碰撞,不再采用头插法方式(jdk1.7采用头插法),而是直接插入链表尾部,因此不会出现环形链表的情况,但是在多线程的情况下仍然不安全。
如果没有hash碰撞则会直接插入元素。如果线程A和线程B同时进行put操作,刚好这两条不同的数据hash值一样,并且该位置数据为null,所以这线程A、B都会进入第6行代码中。假设一种情况,线程A进入后还未进行数据插入时挂起,而线程B正常执行,从而正常插入数据,然后线程A获取CPU时间片,此时线程A不用再进行hash判断了,问题出现:线程A会把线程B插入的数据给覆盖,发生线程不安全。总结HashMap并发带来的问题:
- 在jdk1.7中,在多线程环境下,扩容时会造成环形链或数据丢失(因为头插法插入数据)。
- 在jdk1.8中,在多线程环境下,会发生数据覆盖的情况。
本文深入解析hash算法原理,探讨hash冲突及其解决方案,重点分析HashMap数据结构及其实现机制,包括数组、链表、红黑树的运用,以及JDK1.8中HashMap的优化与性能提升。
1169

被折叠的 条评论
为什么被折叠?



