2、Java并发机制的底层实现原理_追加64字节的写法-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_46461364/article/details/120683735

2、Java并发机制的底层实现原理

2.1 volatile的应用
- volatile的定义与实现原理
- volatile 的使用优化
2.2 synchronized 的实现和原理
- Java 对象头
- 锁的升级与对比
2.3 原子操作的实现原理

Java 代码在编译后会变成Java 字节码，字节码被类加载器加载到JVM 里，JVM 执行字节码，最终需要转化为汇编指令在CPU 上执行，Java中所使用的并发机制依赖于JVM 的实现和CPU 的指令。

2.1 volatile的应用

volatile是轻量级的 synchronized，它在多处理器开发中保证了共享变量的“可见性”。可见性的意思是当一个线程修改一个共享变量时，另外一个线程能读到这个修改的值。
不会引起线程上下文的切换和调度。

volatile的定义与实现原理

定义：Java编程语言允许线程访问共享变量，为了确保共享变量能被准确和一致地更新，线程应该确保通过排他锁单独获得这个变量。
CPU的术语定义
Lock前缀的指令在多核处理器下会引发了两件事情
1）将当前处理器缓存行的数据写回到系统内存。
2）这个写回内存的操作会使在其他CPU 里缓存了该内存地址的数据无效。
对声明了volatile的变量进行写操作，JVM 就会向处理器发送一条Lock前缀的指令，将这个变量所在缓存行的数据写回到系统内存
在多处理器下，为了保证各个处理器的缓存是一致的，就会实现缓存一致性协议，每个处理器通过嗅探在总线上传播的数据来检查自己缓存的值是不是过期了，当处理器发现自己缓存行对应的内存地址被修改，就会将当前处理器的缓存行设置成无效状态，当处理器对这个数据进行修改操作的时候，会重新从系统内存中把数据读到处理器缓存里。
volatile的两条实现原则
1）Lock前缀指令会引起处理器缓存回写到内存。
2）一个处理器的缓存回写到内存会导致其他处理器的缓存无效。

volatile 的使用优化

问：追加字节能优化性能？
问：为什么追加64字节能够提高并发编程的效率呢？

处理器的L1、L2 或L3 缓存的高速缓存行是64个字节宽，不支持部分填充缓存行，这意味着，如果队列的头节点和尾节点都不足64字节的话，处理器会将它们都读到同一个高速缓存行中，在多处理器下每个处理器都会缓存同样的头、尾节点，当一个处理器试图修改头节点时，会将整个缓存行锁定，那么在缓存一致性机制的作用下，会导致其他处理器不能访问自己高速缓存中的尾节点，而队列的入队和出队操作则需要不停修改头节点和尾节点，所以在多处理器的情况下将会严重影响到队列的入队和出队效率。使用追加到64字节的方式来填满高速缓冲区的缓存行，避免头节点和尾节点加载到同一个缓存行，使头、尾节点在修改时不会互相锁定。
问：不应该使用追加64字节的两种场景
缓存行非64字节宽的处理器。
···如P6系列和奔腾处理器，它们的L1和L2高速缓存行是32个字节宽。
·共享变量不会被频繁地写。
···因为使用追加字节的方式需要处理器读取更多的字节到高速缓冲区，这本身就会带来一定的性能消耗，如果共享变量不被频繁写的话，锁的几率也非常小，就没必要通过追加字节的方式来避免相互锁定。

追加字节的方式在Java 7下可能不生效，因为Java 7变得更加智慧，它会淘汰或重新排列无用字段，需要使用其他追加字节的方式。

2.2 synchronized 的实现和原理

利用synchronized实现同步的基础：Java中的每一个对象都可以作为锁。具体表现为以下3种形式。
···对于普通同步方法，锁是当前实例对象。
···对于静态同步方法，锁是当前类的Class对象。
···对于同步方法块，锁是Synchonized 括号里配置的对象。
JVM基于进入和退出Monitor对象来实现方法同步和代码块同步，但两者的实现细节不一样，方法的同步同样可以使用这两个指令来实现。
···代码块同步是使用monitorenter 和monitorexit指令实现
···monitorenter 指令是在编译后插入到同步代码块的开始位置，而monitorexit 是插入到方法结束处和异常处
···JVM 要保证每个monitorenter 必须有对应的monitorexit 与之配对。
···任何对象都有一个monitor 与之关联，当且一个monitor 被持有后，它将处于锁定状态。线程执行到monitorenter 指令时，将会尝试获取对象所对应的monitor 的所有权，即尝试获得对象的锁。

Java 对象头

synchronized用的锁是存在Java对象头里的。如果对象是数组类型，则虚拟机用3个字宽（Word）存储对象头，如果对象是非数组类型，则用2字宽存储对象头。在32位虚拟机中，1字宽等于4字节，即32bit
Java对象头里的Mark Word里默认存储对象的HashCode、分代年龄和锁标记位。

Mark Word的状态变化

64位虚拟机下，Mark Word是64bit大小
在这里插入图片描述

锁的升级与对比

锁一共有4种状态，级别从低到高依次是：无锁状态、偏向锁状态、轻量级锁状态和重量级锁状态
这几个状态会随着竞争情况逐渐升级。锁可以升级但不能降级，意味着偏向锁升级成轻量级锁后不能降级成偏向锁。
目的是为了提高获得锁和释放锁的效率

偏向锁

大多数情况下，锁不仅不存在多线程竞争，而且总是由同一线程多次获得，为了让线程获得锁的代价更低而引入了偏向锁
偏向锁的撤销
···等到竞争出现才释放锁的机制
关闭偏向锁
···偏向锁在Java 6和Java 7里是默认启用的，但是它在应用程序启动几秒钟之后才激活，如果你确定应用程序里所有的锁通常情况下处于竞争状态，可以通过JVM参数关闭偏向锁：
-XX:- UseBiasedLocking=false，那么程序默认会进入轻量级锁状态。

轻量级锁

轻量级锁加锁线程在执行同步块之前，JVM会先在当前线程的栈桢中创建用于存储锁记录的空间，并将对象头中的Mark Word复制到锁记录中，官方称为Displaced Mark Word。然后线程尝试使用 CAS将对象头中的Mark Word替换为指向锁记录的指针。如果成功，当前线程获得锁，如果失败，表示其他线程竞争锁，当前线程便尝试 使用自旋来获取锁。
轻量级锁解锁轻量级解锁时，会使用原子的CAS 操作将Displaced Mark Word 替换回到对象头，如果成功，则表示没有竞争发生。如果失败，表示当前锁存在竞争，锁就会膨胀成重量级锁。

锁的优缺点对比
在这里插入图片描述

2.3 原子操作的实现原理

不可中断的一个或者一系列的操作

CPU 术语定义

在这里插入图片描述

处理器如何实现原子操作

使用基于对 缓存加锁 或 总线加锁 的方式来实现多处理器之间的原子操作
···当一个处理器读取一个字节时，其他处理器不能访问这个字节的内存地址

（1）使用总线锁保证原子性

所谓总线锁就是使用处理器提供的一个 LOCK＃信号，当一个处理器在总线上输出此信号时，其他处理器的请求将被阻塞住，那么该处理器可以独占共享内存。

（2）使用缓存锁保证原子性

所谓“缓存锁定”是指内存区域如果被缓存在处理器的缓存行中，并且在Lock 操作期间被锁定，那么当它执行锁操作回写到内存时，处理器不在总线上声言LOCK＃信号，而是修改内部的内存地址，并允许它的缓存一致性机制来保证操作的原子性，因为缓存一致性机制会阻止同时修改由两个以上处理器缓存的内存区域数据，当其他处理器回写已被锁定的缓存行的数据时，会使缓存行无效
有两种情况下处理器不会使用缓存锁定
···当操作的数据不能被缓存在处理器内部，或操作的数据跨多个缓存行时，则处理器会调用总线锁定。
···有些处理器不支持缓存锁定，就算锁定的内存区域在处理器的缓存行中也会调用总线锁定。

Java如何实现原子操作

锁和循环CAS的方式来实现原子操作

使用循环CAS实现原子操作
···自旋CAS实现的基本思路就是循环进行CAS操作直到成功为止
CAS实现原子操作的三大问题
···1）ABA问题
······解决：使用版本号
···2）循环时间长开销大
······解决：如果JVM能支持处理器提供的pause指令，那么效率会有一定的提升
······pause指令有两个作用
·········第一，它可以延迟流水线执行指令，使CPU不会消耗过多的执行资源，延迟的时间取决于具体实现的版本，在一些处理器上延迟时间是零
·········第二，它可以避免在退出循环的时候因内存顺序冲突而引起CPU流水线被清空，从而提高CPU的执行效率
···3）只能保证一个共享变量的原子操作
······对多个共享变量操作时，循环CAS就无法保证操作的原子性，这个时候就可以用锁。
······把多个共享变量合并成一个共享变量来操作，从Java 1.5开始， JDK 提供了AtomicReference 类来保证引用对象之间的原子性，就可以把多个变量放在一个对象里来进行CAS 操作。
使用锁机制实现原子操作
···保证了只有获得锁的线程才能够操作锁定的内存区域
···除了偏向锁，JVM 实现锁的方式都用了循环 CAS，即当一个线程想进入同步块的时候使用循环CAS的方式来获取锁，当它退出同步块的时候使用循环CAS 释放锁。