内存排查2-优快云博客

分析 Java 进程的内存分布是一项关键技能，能帮助您定位性能瓶颈和内存泄漏。下面这张流程图清晰地展示了核心的排查思路和步骤，您可以跟着它一步步操作。

flowchart TD
    A[Java进程内存分析] --> B{初步检查与监控}
    B --> C[系统级内存查看]
    B --> D[JVM内存区监控]
    
    C --> E{问题是否定位?}
    D --> E
    
    E -- 是 --> F[深入分析]
    E -- 否 --> G[常规监控/优化]
    
    F --> F1[生成堆转储文件]
    F --> F2[使用MAT等工具分析]
    F --> F3[检查堆外内存]
    
    G --> H[持续观察]

接下来，我们详细说明每个步骤该怎么做。

🛠️ 关键工具与使用方法

1. 初步检查与系统级监控

首先快速查看Java进程的整体内存占用，确认是否存在异常。

使用 top 或 ps 命令
在终端执行以下命令，查看进程的物理内存（RSS）和虚拟内存（VSZ）：
```
top -p <PID>  # 关注 RES（常驻内存）列
ps -p <PID> -o rss,vsz,cmd  # 直接输出RSS和VSZ
```
关键指标：RES (RSS) 表示进程实际占用的物理内存，这是最需要关注的指标。如果它持续增长且不下降，可能存在内存泄漏。
**使用 jcmd 和 Native Memory Tracking (NMT)
NMT 是JVM提供的功能，能详细追踪内存使用。首先在启动应用时开启NMT：
```
java -XX:NativeMemoryTracking=detail -jar your-app.jar
```
然后通过以下命令查看详细分布：
```
jcmd <PID> VM.native_memory detail
```
输出会清晰显示堆内存、类元数据（Metaspace）、线程栈、代码缓存等各部分的内存提交（committed）和保留（reserved）情况，是分析非堆内存的利器。

2. JVM内存区监控

使用JDK自带工具深入观察JVM内存各分区（堆、非堆）的动态变化。

使用 jstat 监控GC及内存分区
jstat -gc <PID> 1000 10 命令可以每秒采样1次GC情况，共10次。您需要关注输出中的这些列：
- 堆内内存：EU (Eden区使用量)、OU (老年代使用量)。如果老年代持续增长且Full GC后回收效果不佳，提示可能存在内存泄漏。
- 非堆内存：MU (Metaspace使用量)、CCSU (压缩类空间使用量)。如果Metaspace使用量持续增长，可能是加载了过多类或存在类加载器泄漏。
使用图形化工具：JConsole 与 VisualVM
这些工具提供直观的实时监控曲线，适合观察内存变化趋势。
- JConsole：命令行输入 jconsole 即可启动，连接至目标进程后，在“内存”选项卡可查看各内存区域使用情况。
- VisualVM：功能更强大，除了内存监控，还支持生成和分析堆转储（Heap Dump）。

3. 深入分析：堆转储与堆外内存

当初步定位问题后，需要更深入的分析来确定根本原因。

生成和分析堆转储（Heap Dump）
堆转储是分析堆内存问题的“金标准”。
- 生成方式：
```
# 使用jmap主动生成
jmap -dump:live,format=b,file=heap.hprof <PID> 
# 或配置JVM参数，在发生OOM时自动生成
-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp 
```
- 分析工具：推荐使用 Eclipse Memory Analyzer (MAT)。导入堆转储文件后，可以利用其 Histogram（直方图）查看哪些类的实例数量最多、占用内存最大；Dominator Tree（支配树）可以找到保持内存存活的关键对象及引用链，常用于定位内存泄漏。
排查堆外内存（非堆）
Java进程的总内存占用（RSS）通常大于 -Xmx 设定的堆最大值，这多由堆外内存引起。
- 直接内存（Direct Buffer）：通过 jcmd <PID> VM.native_memory summary | grep "Internal" 查看，或使用 jmap -histo:live <PID> | grep "DirectByteBuffer" 检查堆内的DirectByteBuffer对象数量。
- 线程栈内存：NMT报告中的Thread部分内存约等于 -Xss（线程栈大小）乘以线程数，但需注意操作系统懒加载机制可能导致实际RSS小于committed值。

4. 在线诊断利器：Arthas

对于线上问题，Arthas 可以在不重启JVM的情况下进行动态诊断。

启动Arthas后，使用 memory 命令可以快速查看JVM内存概况，包括堆和元空间。
使用 dashboard 命令可以实时查看内存、线程、GC等综合信息。

💡 常见内存问题特征与解决方案

问题场景	典型特征	解决方案参考
堆内存泄漏	Old Gen使用率随Full GC下降有限，甚至持续增长。	使用MAT分析堆转储，重点检查静态集合（如static Map）、缓存等。采用弱引用（WeakReference）或使用有界缓存（如Caffeine、Guava Cache）并设置合理过期时间。
元空间（Metaspace）溢出	报错 `OutOfMemoryError: Metaspace`，MU使用量高。	增加 `-XX:MaxMetaspaceSize`。检查是否有类加载器泄漏（如重复加载类、动态代理滥用）。
直接内存溢出	报错 `OutOfMemoryError: Direct buffer memory`，NMT中Internal部分commit高。	确保DirectByteBuffer及时被回收或显式调用 `cleaner.clean()`。调整 `-XX:MaxDirectMemorySize`。
线程栈占用过高	创建大量线程，可能报 `OutOfMemoryError: unable to create new native thread`。	优化代码，避免无限创建线程。调整 `-Xss` 参数减小单个线程栈大小（需权衡栈溢出风险）。

📊 理解Java进程内存构成

简单来说，一个Java进程的内存占用（RSS）主要由以下几部分构成：

Java堆（Heap）：存放对象实例，由 -Xms 和 -Xmx 控制。
非堆内存（Non-Heap）：
- 元空间（Metaspace）：存储类元数据，取代了永久代（PermGen）。
- 代码缓存（Code Cache）：存储JIT编译后的本地代码。
- 编译器存储等JVM自身开销。
堆外内存（Off-Heap）：
- 直接内存（Direct Memory）：主要由 java.nio.DirectByteBuffer 使用。
- 线程栈（Thread Stack）：每个线程创建时分配的栈内存。
- JNI代码：本地库申请的内存。