无停顿 GC 实现原理：ZGC 如何做到毫秒级停顿？

最新推荐文章于 2025-12-12 14:26:23 发布

原创最新推荐文章于 2025-12-12 14:26:23 发布 · 473 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#jvm #java

Java 进阶同时被 2 个专栏收录

69 篇文章

订阅专栏

JVM 底层原理

22 篇文章

订阅专栏

在 Java 应用的性能优化领域，垃圾回收（GC）停顿始终是绕不开的“老大难”问题。对于金融交易、实时数据分析、高频交易等核心业务，即使是数百毫秒的停顿都可能引发系统超时、交易失败等严重后果。传统 GC 如 CMS、G1 虽在不断优化，但面对 TB 级大内存场景时，仍难以突破秒级停顿的瓶颈。而 ZGC（Z Garbage Collector）的出现，彻底改变了这一局面——它以“毫秒级停顿”为核心目标，甚至能在 16TB 内存环境下将停顿控制在 10ms 以内。今天，我们就深入剖析 ZGC 的实现原理，揭开它“无停顿”的神秘面纱。

一、先搞懂核心问题：GC 停顿的根源是什么？

要理解 ZGC 的创新之处，首先需要明确传统 GC 停顿的核心原因。垃圾回收的本质是“识别垃圾-回收垃圾-整理内存”的过程，而停顿主要源于两个关键环节：

根节点遍历与可达性分析的“全局停顿”：GC 要判断对象是否为垃圾，需从根节点（如线程栈、静态变量、JNI 引用等）出发，遍历整个对象引用图。为避免遍历过程中对象引用关系被动态修改（导致分析结果错误），传统 GC 会暂停所有应用线程（即 STW，Stop-The-World），直到可达性分析完成。内存越大、对象越多，遍历时间越长，停顿就越久。
内存整理的“移动开销”：为解决内存碎片问题，多数 GC 会在回收后整理存活对象（如 G1 的复制算法、CMS 的标记-压缩阶段）。移动对象时不仅要修改对象本身的地址，还要更新所有指向该对象的引用——这个过程同样需要 STW，否则应用线程可能访问到无效地址。

简单来说，传统 GC 的“停顿”本质是“为了保证内存操作的安全性，牺牲了应用线程的连续性”。而 ZGC 的核心思路恰恰是：通过技术创新，在不暂停应用线程的前提下，完成可达性分析和引用更新，从而消除长时间 STW。

二、ZGC 的核心技术：三大创新突破停顿瓶颈

ZGC 并非对传统 GC 的小修小补，而是基于“并发处理优先”的理念，设计了一套全新的内存管理机制。其中，着色指针（Colored Pointers）、**读屏障（Read Barrier）和动态内存分区（Dynamic Heap Regions）**是实现毫秒级停顿的三大核心技术。

1. 着色指针：用地址“附加信息”打破引用束缚

指针是内存地址的“别名”，传统 GC 中，指针仅用于定位对象，而 ZGC 创新性地在指针中嵌入了“额外信息”——这就是着色指针。在 64 位系统中，ZGC 仅使用低 42 位（可支持 4TB 内存，扩展后支持 16TB）作为实际内存地址，剩余的高位比特位则用于存储“颜色标记”和“元数据引用”。

这些“颜色标记”并非对象的属性，而是附着在指向对象的指针上，主要承担两个关键角色：

标记对象状态：通过 2-3 个比特位表示对象的“可达性状态”（如“未标记”“已标记”“待重定位”），无需修改对象本身，就能在并发遍历中识别垃圾。
跟踪引用更新：当对象被移动时，指针的颜色标记会被置为“待更新”，应用线程访问该指针时，会触发读屏障完成引用修正——这就避免了传统 GC 中“集中更新引用”的 STW 操作。

着色指针的核心价值在于：将“对象状态管理”从对象本身转移到指针上，使得 GC 线程和应用线程可以并发访问对象，无需通过 STW 来“冻结”引用关系。

2. 读屏障：轻量级“拦截”实现并发安全

有了着色指针，还需要一种机制确保应用线程在访问指针时，能配合 GC 完成状态同步——这就是读屏障。读屏障并非硬件层面的屏障，而是 ZGC 在应用线程“读取对象引用”的代码处插入的一小段轻量级逻辑（类似 AOP 拦截）。

读屏障的工作流程非常简洁，可概括为“检查-处理-返回”三步：

检查指针颜色：当应用线程读取一个对象引用时，读屏障先检查指针的颜色标记。
处理特殊状态：如果指针标记为“待重定位”（说明对象已被 GC 移动到新地址），则触发引用修正——将指针更新为对象的新地址，并同步修改颜色标记；如果标记为“未标记”（且处于 GC 标记阶段），则辅助 GC 完成标记操作（将对象标记为可达）。
返回有效指针：处理完成后，将修正后的有效指针返回给应用线程，应用线程无感知继续执行。

这里需要强调的是，读屏障是“按需触发”的，仅在应用线程读取引用时执行，且逻辑极轻（通常仅几纳秒），对应用性能的影响微乎其微。相比传统 GC 的“全局 STW”，ZGC 用“分散式的轻量级拦截”实现了并发安全，这是其停顿时间短的关键。

3. 动态内存分区：兼顾大内存与高效回收

面对 TB 级大内存，传统 GC 的“固定分区”模式会导致回收效率低下（如 G1 的 Region 大小固定，大对象处理麻烦）。ZGC 则采用了“动态内存分区”策略，将堆内存划分为三种不同大小的 Region：

小 Region（2MB）：存储小于 256KB 的对象，适合频繁创建和回收的小对象。
中 Region（32MB）：存储 256KB 至 4MB 的对象，平衡小对象和大对象的需求。
大 Region（N×2MB，N 为 2 的幂）：存储大于 4MB 的大对象，每个大 Region 仅存储一个大对象，避免大对象跨 Region 存储导致的回收效率问题。

ZGC 的 Region 大小并非固定，而是根据对象大小动态调整，且支持“并发扩容”和“并发缩容”——当内存不足时，GC 线程可在不影响应用的情况下新增 Region；当内存充裕时，可回收闲置 Region 释放资源。这种动态分区机制，让 ZGC 既能高效处理小对象的高频回收，又能从容应对大对象的内存管理，为大内存场景下的低停顿奠定了基础。

三、ZGC 的工作流程：全阶段并发的“无停顿”实践

结合上述三大技术，ZGC 的垃圾回收过程可分为四个阶段，且除了“初始标记”和“最终标记”两个极短的阶段（各约 1ms）外，其余阶段均与应用线程并发执行，彻底打破了传统 GC 的停顿瓶颈。

1. 初始标记（Initial Mark）——微秒级 STW

该阶段的目标是标记“根节点直接引用的对象”（如线程栈中的局部变量、静态变量）。由于根节点数量有限，这个过程非常快，通常仅需几微秒到 1 毫秒的 STW，对应用几乎无感知。标记完成后，立即唤醒所有应用线程。

2. 并发标记（Concurrent Mark）——无停顿

GC 线程从初始标记的对象出发，并发遍历整个对象引用图，通过着色指针标记所有可达对象。在这个过程中，应用线程正常运行，可能会创建新对象、修改引用关系——此时读屏障会发挥作用：如果应用线程访问到“未标记”的对象，会自动将其标记为可达，避免 GC 误判为垃圾；如果引用关系被修改，ZGC 会通过“写屏障”记录引用变更（仅记录，不处理，避免性能损耗）。

3. 最终标记（Final Mark）——微秒级 STW

该阶段的核心是处理并发标记过程中“写屏障记录的引用变更”，确保所有可达对象都被正确标记。由于写屏障记录的变更量通常很小，这个阶段的 STW 时间也控制在 1 毫秒以内，同样对应用影响极小。

4. 并发回收与重定位（Concurrent Cleanup & Relocation）——无停顿

这是 ZGC 回收内存的核心阶段，分为两个关键步骤：

并发回收：GC 线程识别并回收所有“未标记”的垃圾对象，释放对应的内存空间。
并发重定位：对于存活对象，GC 线程会将其移动到新的 Region（解决内存碎片），并将原指针标记为“待重定位”。当应用线程通过读屏障访问到“待重定位”的指针时，会自动将指针更新为新地址——这个过程分散在应用线程的执行中，无需集中 STW。

整个阶段完全与应用线程并发执行，GC 回收和对象移动不会导致应用停顿，这也是 ZGC 实现“毫秒级停顿”的核心环节。

四、ZGC 的优势与适用场景：不止于“快”

ZGC 的价值不仅在于“毫秒级停顿”，更在于其为 Java 应用带来的“高吞吐、大内存支持、低运维成本”等综合优势：

大内存友好：支持 4TB 至 16TB 内存，相比 G1 的最大支持内存（通常不超过 64GB），彻底解决了大内存场景下的 GC 痛点。
吞吐影响小：读屏障的轻量级设计，使得 ZGC 的并发执行对应用吞吐的影响控制在 5% 以内，远低于 CMS 等传统 GC。
运维简单：无需像 G1 那样手动调优大量参数（如 Region 大小、回收阈值等），ZGC 的大部分参数可自动适配，降低了运维成本。

基于这些优势，ZGC 特别适合以下场景：

金融交易、实时支付系统：对停顿时间敏感，需确保交易响应的稳定性。
大数据分析平台：如 Spark、Flink 等，内存占用高，需高效回收大对象。
分布式服务中间件：如 Dubbo、RocketMQ 等，需高吞吐、低延迟保障服务可用性。

五、总结：ZGC 带来的 GC 革命

ZGC 的出现，本质上是 GC 设计理念的一次革命——它摒弃了传统 GC“以 STW 换安全”的思路，通过着色指针、读屏障等创新技术，将“并发处理”贯穿于 GC 的全流程，最终实现了“毫秒级停顿”的目标。对于 Java 开发者而言，ZGC 不仅解决了大内存场景下的性能瓶颈，更让 Java 应用在“高并发、低延迟”领域有了更强的竞争力。

随着 JDK 17 将 ZGC 标记为正式特性，越来越多的企业开始将其应用于生产环境。未来，随着内存硬件的升级和 GC 技术的持续优化，“无停顿 GC”或许将成为常态，而 ZGC 无疑为这场变革奠定了坚实的基础。