从JVM并发看CPU内存指令重排序(Memory Reordering)

最新推荐文章于 2021-01-13 22:54:38 发布

原创最新推荐文章于 2021-01-13 22:54:38 发布 · 183 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#JVM #Cache #多线程 #数据结构

多线程与并发编程专栏收录该内容

20 篇文章

订阅专栏

本文解析了现代CPU如何通过缓存分片技术提高并行处理能力，并介绍了内存访问指令重排序的原因及其对并发编程的影响。

我们都知道，现在的计算机， cpu 在计算的时候，并不总是从内存读取数据，它的数据读取顺序优先级是：寄存器－高速缓存－内 存。线程耗费的是 CPU ，线程计算的时候，原始的数据来自内存，在计算过程中，有些数据可能被频繁读取，这些数据被存储在寄存器和高速缓存中，当线程计算 完后，这些缓存的数据在适当的时候应该写回内存。当个多个线程同时读写某个内存数据时，就会产生多线程并发问题，涉及到三个特性：原子性，有序性，可见性。

本文转自：http://kenwublog.com/illustrate-memory-reordering-in-cpu

这两天，笔者拜读了 Dennis Byrne 写的一片博文 Memory Barriers and JVM Concurrency ( 中译文内存屏障与 JVM 并发 ) 。

文中提到 :

对主存的一次访问一般花费硬件的数百次时钟周期。处理器通过缓存（ caching ）能够从数量级上降低内存延迟的成本这些缓存为了性能重新排列待定内存操作的顺序。也就是说，程序的读写操作不一定会按照它要求处理器的顺序执行。

这段话是作者对内存屏障重要性的定义。通过 cache 降低内存延迟，这句话很好理解。但后面那句 “ 为了性能重排序内存操作顺序 ” ，让没学好微机原理的我倍感疑惑。

CPU 为何要重排序内存访问指令？在哪种场景下会触发重排序？作者在文中并未提及。

为了解答疑问，我在网上查阅了一些资料，在这里跟大家分享一下。

1. 重排序的背景

我们知道现代 CPU 的主频越来越高，与 cache 的交互次数也越来越多。当 CPU 的计算速度远远超过访问 cache 时，会产生 cache wait ，过多的 cache wait 就会造成性能瓶颈。
针对这种情况，多数架构（包括 X86 ）采用了一种将 cache 分片的解决方案，即将一块 cache 划分成互不关联地多个 slots ( 逻辑存储单元，又名 Memory Bank 或 Cache Bank) ， CPU 可以自行选择在多个 idle bank 中进行存取。这种 SMP 的设计，显著提高了 CPU 的并行处理能力，也回避了 cache 访问瓶颈。

Memory Bank 的划分
一般 Memory bank 是按 cache address 来划分的。比如偶数 adress 0×12345000 分到 bank 0, 奇数 address 0×12345100 分到 bank1 。

重排序的种类
编译期重排。编译源代码时，编译器依据对上下文的分析，对指令进行重排序，以之更适合于 CPU 的并行执行。

运行期重排， CPU 在执行过程中，动态分析依赖部件的效能，对指令做重排序优化。

2. 实例讲解指令重排序原理

为了方便理解，我们先来看一张 CPU 内部结构图 :

从图中可以看到，这是一台配备双CPU 的计算机，cache 按地址被分成了两块 cache banks ，分别是 cache bank0 和 cache bank1 。

理想的内存访问指令顺序：
1 ，CPU0 往 cache address 0×12345000 写入一个数字 1 。因为address 0×12345000 是偶数，所以值被写入 bank0.
2 ，CPU1 读取 bank0 address 0×12345000 的值，即数字1 。
3 ，CPU0 往 cache 地址 0×12345100 写入一个数字 2 。因为address 0×12345100 是奇数，所以值被写入 bank1.
4 ，CPU1 读取 bank1 address 0×12345100 的值，即数字2 。

重排序后的内存访问指令顺序：
1 ，CPU0 准备往 bank0 address 0×12345000 写入数字 1 。
2 ，CPU0 检查 bank0 的可用性。发现 bank0 处于 busy 状态。
3 ， CPU0 为了防止 cache 等待，发挥最大效能，将内存访问指令重排序。即先执行后面的 bank1 address 0×12345100 数字2 的写入请求。
4 ，CPU0 检查 bank1 可用性，发现bank1 处于 idle 状态。
5 ，CPU0 将数字2 写入 bank 1 address 0×12345100 。
6 ，CPU1 来读取 0×12345000 ，未读到数字1 ，出错。
7 ， CPU0 继续检查 bank0 的可用性，发现这次 bank0 可用了，然后将数字1 写入 0×12345000 。
8 ， CPU1 读取 0×12345100 ，读到数字2 ，正确。