Concurrenthashmap的实现原理分析

本文深入探讨了ConcurrentHashMap的工作原理及其实现细节,包括其在Java 1.7与1.8版本之间的演变过程,以及如何通过锁分段技术和红黑树等手段提升并发性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

ConcurrentHashMap是线程安全且高效的HashMap。在介绍Concurrenthashmap之前,我们先来看一下HashMap。

1.    HashMap概述

       HashMap是基于哈希表的Map接口的非同步实现。此实现提供所有可选的映射操作,并允许使用null值和null键(除了不同步和允许使用 null 之外,HashMap 类与 Hashtable 大致相同)。此类不保证映射的顺序,特别是它不保证该顺序恒久不变。

  值得注意的是HashMap不是线程安全的,如果想要线程安全的HashMap,可以通过Collections类的静态方法synchronizedMap获得线程安全的HashMap。

 Map map = Collections.synchronizedMap(new HashMap());


2、HashMap的数据结构

HashMap的底层主要是基于数组和链表来实现的,它之所以有相当快的查询速度主要是因为它是通过计算散列码来决定存储的位置。HashMap中主要是通过key的hashCode来计算hash值的,只要hashCode相同,计算出来的hash值就一样。如果存储的对象对多了,就有可能不同的对象所算出来的hash值是相同的,这就出现了所谓的hash冲突。学过数据结构的同学都知道,解决hash冲突的方法有很多,HashMap底层是通过链表来解决hash冲突的。也就是说,其链表结果主要是用来解决hash冲突的。

hashmap结构:哈希表是由数组+链表组成的,数组默认长度为16可以自动变长。在构造HashMap的时候也可以指定一个长度),数组里每个元素存储的是一个链表的头结点。而组成链表的结点其实就是hashmap内部定义的一个类:Entity。Entity包含三个元素:key,value和指向下一个Entity的next。(https://www.cnblogs.com/xdxs/p/4982158.html



以上的是1.7之前的,JDK1.8中:

使用一个Node数组来存储数据,但这个Node可能是链表结构,也可能是红黑树结构

如果插入的key的hashcode相同,那么这些key也会被定位到Node数组的同一个格子里。

如果同一个格子里的key不超过8个,使用链表结构存储。

如果超过了8个,那么会调用treeifyBin函数,将链表转换为红黑树。

那么即使hashcode完全相同,由于红黑树的特定,查找某个特定元素,也只需要O(log n)的开销

也就是说put/get的操作的时间复杂度只有O(log n)

备注:当数组大小已经超过64并且链表中的元素个数超过默认设定(8个)时,将链表转化为红黑树



下面我们来谈一下为什么要使用ConcurrentHashMap。

在并发编程中使用HashMap可能导致程序死循环。而使用线程安全的HashTable效率又非常低下,基于以上两个原因,便有了ConcurrentHashMap的登场机会

1)线程不安全的HashMap

在多线程环境下,使用HashMap进行put操作会引起死循环,导致CPU利用率接近100%,所以在并发情况下不能使用HashMap。HashMap在并发执行put操作时会引起死循环,是因为多线程会导致HashMap的Entry链表形成环形数据结构,一旦形成环形数据结构,Entry的next节点永远不为空,就会产生死循环获取Entry。

2)效率低下的HashTable

HashTable容器使用synchronized来保证线程安全,但在线程竞争激烈的情况下HashTable的效率非常低下。因为当一个线程访问HashTable的同步方法,其他线程也访问HashTable的同步方法时,会进入阻塞或轮询状态。如线程1使用put进行元素添加,线程2不但不能使用put方法添加元素,也不能使用get方法来获取元素,所以竞争越激烈效率越低。

3)ConcurrentHashMap的锁分段技术可有效提升并发访问率

HashTable容器在竞争激烈的并发环境下表现出效率低下的原因是所有访问HashTable的线程都必须竞争同一把锁,假如容器里有多把锁,每一把锁用于锁容器其中一部分数据,那么当多线程访问容器里不同数据段的数据时,线程间就不会存在锁竞争,从而可以有效提高并发访问效率,这就是ConcurrentHashMap所使用的锁分段技术。首先将数据分成一段一段地存储,然后给每一段数据配一把锁,当一个线程占用锁访问其中一个段数据的时候,其他段的数据也能被其他线程访问。


下面我们来详细介绍一下ConcurrentHashMap的结构

jdk1.7中采用Segment + HashEntry的方式进行实现,结构如下:


ConcurrentHashMap是由Segment数组结构和HashEntry数组结构组成。Segment是一种可重入锁(ReentrantLock),在ConcurrentHashMap里扮演锁的角色;HashEntry则用于存储键值对数据。一个ConcurrentHashMap里包含一个Segment数组。Segment的结构和HashMap类似,是一种数组和链表结构。一个Segment里包含一个HashEntry数组,每个HashEntry是一个链表结构的元素,每个Segment守护着一个HashEntry数组里的元素,当对HashEntry数组的数据进行修改时,必须首先获得与它对应的Segment锁,如下图所示。



ConcurrentHashMap初始化时,计算出Segment数组的大小ssize和每个SegmentHashEntry数组的大小cap,并初始化Segment数组的第一个元素;其中ssize大小为2的幂次方,默认为16,cap大小也是2的幂次方,最小值为2,最终结果根据根据初始化容量initialCapacity进行计算,其中Segment在实现上继承了ReentrantLock,这样就自带了锁的功能。

当执行put方法插入数据时,根据key的hash值,在Segment数组中找到相应的位置,如果相应位置的Segment还未初始化,则通过CAS进行赋值,接着执行Segment对象的put方法通过加锁机制插入数据。

1、线程A执行tryLock()方法成功获取锁,则把HashEntry对象插入到相应的位置;
2、线程B获取锁失败,则执行scanAndLockForPut()方法,在scanAndLockForPut方法中,会通过重复执行tryLock()方法尝试获取锁,在多处理器环境下,重复次数为64,单处理器重复次数为1,当执行tryLock()方法的次数超过上限时,则执行lock()方法挂起线程B;

3、当线程A执行完插入操作时,会通过unlock()方法释放锁,接着唤醒线程B继续执行;


size实现

因为ConcurrentHashMap是可以并发插入数据的,所以在准确计算元素时存在一定的难度,一般的思路是统计每个Segment对象中的元素个数,然后进行累加,但是这种方式计算出来的结果并不一样的准确的,因为在计算后面几个Segment的元素个数时,已经计算过的Segment同时可能有数据的插入或则删除,在1.7的实现中,采用了如下方式:

先采用不加锁的方式,连续计算元素的个数,最多计算3次:
1、如果前后两次计算结果相同,则说明计算出来的元素个数是准确的;
2、如果前后两次计算结果都不同,则给每个 Segment 进行加锁,再计算一次元素的个数;


1.8实现

ConcurrentHashMap在1.8中的实现,相比于1.7的版本基本上全部都变掉了。首先,取消了Segment分段锁的数据结构,取而代之的是数组+链表(红黑树)的结构。而对于锁的粒度,调整为对每个数组元素加锁(Node)。然后是定位节点的hash算法被简化了,这样带来的弊端是Hash冲突会加剧。因此在链表节点数量大于8时,会将链表转化为红黑树进行存储。这样一来,查询的时间复杂度就会由原先的O(n)变为O(logN)。下面是其基本结构:

  


1.8中放弃了Segment臃肿的设计,取而代之的是采用Node + CAS + Synchronized来保证并发安全进行实现,

只有在执行第一次put方法时才会调用initTable()初始化Node数组,实现如下:

private final Node<K,V>[] initTable() {
    Node<K,V>[] tab; int sc;
    while ((tab = table) == null || tab.length == 0) {
        if ((sc = sizeCtl) < 0)
            Thread.yield(); // lost initialization race; just spin
        else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) {
            try {
                if ((tab = table) == null || tab.length == 0) {
                    int n = (sc > 0) ? sc : DEFAULT_CAPACITY;
                    @SuppressWarnings("unchecked")
                    Node<K,V>[] nt = (Node<K,V>[])new Node<?,?>[n];
                    table = tab = nt;
                    sc = n - (n >>> 2);
                }
            } finally {
                sizeCtl = sc;
            }
            break;
        }
    }
    return tab;
}
put实现

当执行put方法插入数据时,根据key的hash值,在Node数组中找到相应的位置,实现如下:

1、如果相应位置的Node还未初始化,则通过CAS插入相应的数据;

else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) {
    if (casTabAt(tab, i, null, new Node<K,V>(hash, key, value, null)))
        break;                   // no lock when adding to empty bin
}

2、如果相应位置的Node不为空,且当前该节点不处于移动状态,则对该节点加synchronized锁,如果该节点的hash不小于0,则遍历链表更新节点或插入新节点;

if (fh >= 0) {
    binCount = 1;
    for (Node<K,V> e = f;; ++binCount) {
        K ek;
        if (e.hash == hash &&
            ((ek = e.key) == key ||
             (ek != null && key.equals(ek)))) {
            oldVal = e.val;
            if (!onlyIfAbsent)
                e.val = value;
            break;
        }
        Node<K,V> pred = e;
        if ((e = e.next) == null) {
            pred.next = new Node<K,V>(hash, key, value, null);
            break;
        }
    }
}

3、如果该节点是TreeBin类型的节点,说明是红黑树结构,则通过putTreeVal方法往红黑树中插入节点;

else if (f instanceof TreeBin) {
    Node<K,V> p;
    binCount = 2;
    if ((p = ((TreeBin<K,V>)f).putTreeVal(hash, key, value)) != null) {
        oldVal = p.val;
        if (!onlyIfAbsent)
            p.val = value;
    }
}

4、如果binCount不为0,说明put操作对数据产生了影响,如果当前链表的个数达到8个,则通过treeifyBin方法转化为红黑树,如果oldVal不为空,说明是一次更新操作,没有对元素个数产生影响,则直接返回旧值;

if (binCount != 0) {
    if (binCount >= TREEIFY_THRESHOLD)
        treeifyBin(tab, i);
    if (oldVal != null)
        return oldVal;
    break;
}   

5、如果插入的是一个新节点,则执行addCount()方法尝试更新元素个数baseCount

size实现

1.8中使用一个volatile类型的变量baseCount记录元素的个数,当插入新数据或则删除数据时,会通过addCount()方法更新baseCount,实现如下:

if ((as = counterCells) != null ||
    !U.compareAndSwapLong(this, BASECOUNT, b = baseCount, s = b + x)) {
    CounterCell a; long v; int m;
    boolean uncontended = true;
    if (as == null || (m = as.length - 1) < 0 ||
        (a = as[ThreadLocalRandom.getProbe() & m]) == null ||
        !(uncontended =
          U.compareAndSwapLong(a, CELLVALUE, v = a.value, v + x))) {
        fullAddCount(x, uncontended);
        return;
    }
    if (check <= 1)
        return;
    s = sumCount();
}

1、初始化时counterCells为空,在并发量很高时,如果存在两个线程同时执行CAS修改baseCount值,则失败的线程会继续执行方法体中的逻辑,使用CounterCell记录元素个数的变化;

2、如果CounterCell数组counterCells为空,调用fullAddCount()方法进行初始化,并插入对应的记录数,通过CAS设置cellsBusy字段,只有设置成功的线程才能初始化CounterCell数组,实现如下:

else if (cellsBusy == 0 && counterCells == as &&
         U.compareAndSwapInt(this, CELLSBUSY, 0, 1)) {
    boolean init = false;
    try {                           // Initialize table
        if (counterCells == as) {
            CounterCell[] rs = new CounterCell[2];
            rs[h & 1] = new CounterCell(x);
            counterCells = rs;
            init = true;
        }
    } finally {
        cellsBusy = 0;
    }
    if (init)
        break;
}

3、如果通过CAS设置cellsBusy字段失败的话,则继续尝试通过CAS修改baseCount字段,如果修改baseCount字段成功的话,就退出循环,否则继续循环插入CounterCell对象;

else if (U.compareAndSwapLong(this, BASECOUNT, v = baseCount, v + x))
    break; 

所以在1.8中的size实现比1.7简单多,因为元素个数保存baseCount中,部分元素的变化个数保存在CounterCell数组中,实现如下:

public int size() {
    long n = sumCount();
    return ((n < 0L) ? 0 :
            (n > (long)Integer.MAX_VALUE) ? Integer.MAX_VALUE :
            (int)n);
}

final long sumCount() {
    CounterCell[] as = counterCells; CounterCell a;
    long sum = baseCount;
    if (as != null) {
        for (int i = 0; i < as.length; ++i) {
            if ((a = as[i]) != null)
                sum += a.value;
        }
    }
    return sum;
}

通过累加baseCountCounterCell数组中的数量,即可得到元素的总个数;



<think>嗯,用户想了解ConcurrentHashMap实现原理,特别是Java并发容器和源码解析方面的内容。首先,我需要回顾一下自己关于ConcurrentHashMap的知识,确保信息准确。ConcurrentHashMap在Java中是一个非常重要的线程安全的哈希表实现,用于多线程环境下的高效操作。不过,用户提供的引用资料里提到JDK1.5和1.8的不同实现,需要区分这两个版本的差异,因为实现原理在1.8之后有了很大的变化。 首先,用户提到的引用[4]提到,JDK1.5时期ConcurrentHashMap使用了分段锁(Segment),而JDK1.8之后改用了CAS和synchronized优化。这应该是关键点。因此,在回答时需要分版本讲解,但用户可能主要关注最新的实现,也就是1.8之后的版本,但可能需要对比说明。 接下来,我需要确保回答结构清晰,按照用户的要求分步骤解析。根据用户的示例,回答应该包括原理、源码结构、成员变量、核心方法分析等部分。同时,需要引用用户提供的引用资料中的内容,比如引用[1]、[2]、[3]、[4],但要注意这些引用是否准确对应到内容中。 比如,引用[1]提到ConcurrentHashMap是线程安全的HashMap,这可能需要在介绍时引用。引用[2]说明ConcurrentHashMap继承了AbstractMap并实现了ConcurrentMap接口,这部分应该在类结构里提到。引用[3]提到Segment的数据结构,但需要注意这是在1.8之前的版本,所以需要说明版本差异。引用[4]详细描述了1.5和1.8的实现变化,特别是分段锁到CAS和synchronized的转变,这里需要重点展开,并可能作为优化部分的内容。 接下来,我需要组织内容的结构。可能分为: 1. 实现原理概述:分段锁(JDK1.7)和CAS+synchronized(JDK1.8)的区别,强调1.8的改进。 2. 类结构与成员变量:继承关系、关键变量如Node数组、sizeCtl等。 3. 核心方法分析:如putVal、initTable、transfer(扩容)等,结合源码解析。 4. 线程安全机制:CAS、volatile变量、synchronized的使用。 5. 性能优化点:如链表转红黑树、扩容协助等。 需要注意使用正确的LaTeX格式,如行内公式用$...$,独立公式用$$...$$,但可能在这个问题中数学公式较少,不过如果有涉及计算或算法复杂度的地方需要正确使用。例如,提到时间复杂度时可能需要用$O(\log n)$这样的表达。 另外,用户要求生成相关问题,可能需要根据内容提出相关问题,比如JDK1.8的改进、CAS机制在ConcurrentHashMap中的应用、红黑树的作用等。 需要检查引用的正确性,比如引用[4]提到JDK1.8使用Unsafe自旋操作,而ConcurrentHashMap在1.8中确实摒弃了分段锁,改为每个桶节点独立加锁,结合CAS和synchronized。例如,put方法中通过CAS尝试无锁插入,失败后再synchronized锁定链表头或树节点。 在源码解析部分,可能需要摘录关键代码片段,比如putVal方法中的循环结构、CAS设置节点,以及initTable方法中的sizeCtl变量的使用。同时,注意代码块的格式,用三个反引号包围,并注明语言为Java。 另外,需要解释成员变量的作用,如sizeCtl的不同取值代表的不同状态(初始化、扩容中),以及如何通过volatile变量保证可见性。例如,Node数组用volatile修饰,确保扩容时其他线程能立即看到变化。 在性能分析部分,要比较分段锁和CAS+synchronized的优劣,比如减少锁粒度,降低竞争,提高并发度。同时,链表转红黑树(当链表长度超过8时)如何避免哈希碰撞导致的性能下降。 可能还需要提及并发扩容机制,即多个线程可以协助扩容,通过transfer方法分片迁移数据,提高效率。 最后,生成的相关问题需要围绕实现原理、源码细节、版本变化、性能优化等方面,确保问题具有针对性,帮助用户进一步深入学习。</think>### ConcurrentHashMap 实现原理分析 #### 一、核心设计思想 在JDK1.8中,ConcurrentHashMap摒弃了早期的**分段锁(Segment)**设计[^4],改为基于`CAS`+`synchronized`的细粒度锁机制。其核心数据结构与HashMap类似,采用**数组+链表/红黑树**实现,通过以下方式保证线程安全: 1. 对链表头节点使用`synchronized`加锁 2. 通过`CAS`操作控制数组扩容、节点插入等并发操作 3. `volatile`修饰成员变量保证内存可见性 #### 二、关键源码结构 ```java public class ConcurrentHashMap<K,V> extends AbstractMap<K,V> implements ConcurrentMap<K,V>, Serializable { transient volatile Node<K,V>[] table; // 哈希表数组 private transient volatile int sizeCtl; // 控制表初始化和扩容的标志 static class Node<K,V> implements Map.Entry<K,V> { // 基础节点 final int hash; final K key; volatile V val; volatile Node<K,V> next; } static final class TreeNode<K,V> extends Node<K,V> { // 红黑树节点 TreeNode<K,V> parent; TreeNode<K,V> left; TreeNode<K,V> right; TreeNode<K,V> prev; boolean red; } } ``` 类继承关系满足`AbstractMap -> ConcurrentMap`的规范[^2],`sizeCtl`的不同取值对应不同状态: - `-1`:表示正在初始化 - `-N`:表示有`N-1`个线程正在扩容 - 正数:表示扩容阈值或初始容量 #### 三、核心方法解析 ##### 1. putVal() 方法实现 ```java final V putVal(K key, V value, boolean onlyIfAbsent) { for (Node<K,V>[] tab;;) { // 通过CAS尝试无锁插入 if (tab == null || (n = tab.length) == 0) tab = initTable(); else if ((f = tabAt(tab, i = (n - 1) & hash)) == null) { if (casTabAt(tab, i, null, new Node<K,V>(hash, key, value))) break; // CAS插入成功则退出循环 } else { synchronized (f) { // 对链表头加锁 // 处理链表/红黑树插入逻辑 if (tabAt(tab, i) == f) { if (fh >= 0) { // 链表插入逻辑 } else if (f instanceof TreeBin) { // 红黑树插入逻辑 } } } } } addCount(1L, binCount); return null; } ``` 通过`tabAt()`获取数组元素时使用`Unsafe.getObjectVolatile`保证可见性,`casTabAt()`使用`Unsafe.compareAndSwapObject`实现原子更新。 ##### 2. 初始化哈希表 ```java private final Node<K,V>[] initTable() { while ((tab = table) == null || tab.length == 0) { if ((sc = sizeCtl) < 0) Thread.yield(); // 其他线程正在初始化 else if (U.compareAndSwapInt(this, SIZECTL, sc, -1)) { try { // 执行实际的数组初始化 } finally { sizeCtl = sc; } break; } } return tab; } ``` 通过`CAS`保证只有一个线程执行初始化操作。 #### 四、线程安全机制对比 | 版本 | 锁粒度 | 并发度 | 实现复杂度 | |------|--------|--------|------------| | JDK1.7 | 段锁(默认16段) | 段级并发 | 中等 | | JDK1.8 | 桶级锁(链表头节点) | 节点级并发 | 较高 | JDK1.8通过以下优化提升性能: 1. 链表长度超过8时转换为红黑树(时间复杂度从$O(n)$降为$O(\log n)$) 2. 多线程协同扩容(`transfer()`方法) 3. 使用`CounterCell`消除`size()`统计的竞争 #### 五、典型应用场景 1. 高并发缓存系统(如Guava Cache底层实现) 2. 实时计算中的状态存储 3. 多线程共享配置存储
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值