一次young gc耗时过长优化过程

最新推荐文章于 2025-09-03 07:39:21 发布

转载最新推荐文章于 2025-09-03 07:39:21 发布 · 1.2k 阅读

4 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/sunzhenchao/p/6711275.html

文章标签：

#java

针对上游系统调用接口超时问题，通过排除服务端处理超时、磁盘清理、线程池及网络因素，最终定位到4G内存机器上的Young GC耗时过长导致。通过对发送消息方法的优化，有效解决了线程阻塞和超时问题。

1 问题源起

上游系统通过公司rpc框架调用我们系统接口超时（默认超时时间为100ms）数量从50次/分突然上涨到2000次/分，在发生变化时间段里我们的系统也没有做过代码变更，但上游系统的调用确发生了变化。由于处于主要链路上，sre同学找过来询问原因，所以开始了问题排查。

2 问题初步定位

排查rpc超时的基本思路是这样的：

1) 服务端处理确实超时

2) 服务端或者客户端由于某种原因卡住

a) 磁盘清理

b) tr线程池

c) gc

d) 网络

因为在发生问题时上游调用其他系统的服务并发生类似的情况，所以可以认为是服务端出现了问题而不是客户端。

2.1 服务端处理确实超时

rpc框架在有一个traceId，用于标识请求。同一个traceId在请求端的耗时是一百多毫秒，但是在接收端的耗时只有2-3ms，抽查了几天里的多个请求都是这样的情况请求端的耗时远大于接收端的耗时。这样就排除了超时是由服务端处理引起的。

2.2 磁盘清理

线上系统通常会打印一些日志，用于记录系统的运行情况，方便问题排查和进行监控，当这些日志的数量累计到一定量时，会进行磁盘清理。在磁盘清理期间，会对IO有较大的影响。通过查看磁盘清理日志，发现磁盘清理时间和调用超时时间并不匹配；另外磁盘清理是偶发性的，但是上游系统调用超时是持续性的，因而磁盘清理导致超时也可以排除。

2.3 rpc线程池

rpc框架采用的是NIO方式进行客户端和服务端进行通讯，在服务端会有一个线程池处理到达的请求，查看了对应的线程池日志，发现线程池的队列中出现堆积的次数一天只有几次而已，但请求端调用服务出现的超时问题会连续几个小时出现的。因而超时问题由线程池的配置引起也可以排除。

2.4 网络

我们的服务是多地多机房部署模式，从调用方最远的机房到我们这边机房网络耗时大概为25ms，来回就是50ms，加上服务端的处理时间，客户端的请求总时间应该在60ms左右，但是现在的总耗时在100ms以上，说明网络也不是该问题的主要原因。

2.5 gc

对上游系统调用我们系统超时的机器进行汇总，发现超时的请求主要集中在内存为4g的机器上，而10g的机器出现超时的情况很少，因而对4g和10g机器的gc进行了分析，发现二者有很大的不同：

	新生代大小	Young gc清理内存量	Young gc耗时	Young gc 时间间隔
4g机器	780m	707840k	0.8s	10s
10g机器	1800m	1382400k	0.05s	17s

从上面的表格可以看到，10g机器的新生代清理效率是4g机器的新生代清理效率20多倍，4g机器新生代的清理耗时过长。初步判断，请求方访问超时应该和4g机器的young gc执行时间过长可能有关。

3 具体原因定位

3.1 young gc过程

jvm中的young gc过程大致分为如下几个步骤：

1) 存活对象标注

2) 存活对象从Edge区拷贝到Survivor 1，重置指针

3) 清理Edge区和Survivor 2

4g和10g机器都是4核，二者的cpu的主频和一级二级缓存是相同的，从理论上讲二者的清理效率应该是相等的，但现在4g机器清理的内存的性能却比10g清理却相差如此多，说明问题可能发生在存活对象标注上。同时young gc过程中的存活对象标注是要STW，这个阶段jvm会对外停止响应，很有可能是因为这个STW导致响应超时。

3.2 GC root

Jvm中的young gc是从GC roots开始的，GC root作为tracing GC的“根集合”，主要包含：

1) Class - 由系统类加载器(system class loader)加载的对象，这些类是不能够被回收的，他们可以以静态字段的方式保存持有其它对象。我们需要注意的一点就是，通过用户自定义的类加载器加载的类，除非相应的java.lang.Class实例以其它的某种（或多种）方式成为roots，否则它们并不是roots，.

2) Thread - 活着的线程

3) Stack Local - Java方法的local变量或参数

4) JNI Local - JNI方法的local变量或参数

5) JNI Global - 全局JNI引用

6) Monitor Used - 用于同步的监控对象

7) Held by JVM - 用于JVM特殊目的由GC保留的对象，但实际上这个与JVM的实现是有关的。可能已知的一些类型是：系统类加载器、一些JVM知道的重要的异常类、一些用于处理异常的预分配对象以及一些自定义的类加载器等。然而，JVM并没有为这些对象提供其它的信息，因此就只有留给分析分员去确定哪些是属于"JVM持有"的了。

4g机器和10g机器运行的代码都是相同，因而能够导致gc root不同个地方应该是第二和第六项。