记一次 Java Testcontainers CPU 100% 问题排查过程

以为代码进入了死循环,结果并没有!

背景与问题

本问题来源于 ShardingSphere issue:
Integration tests occasionally stuck in waiting for container ready #19648

为保证代码质量,Apache ShardingSphere 有自动化运行的单元测试、集成测试,测试会在每次提交 Pull Request 时通过 GitHub Actions 自动运行。

其中有一个专门做集成测试的模块,以前叫 integration-test,现在叫 e2e。集成测试会通过 Docker 启动 ZooKeeper、ShardingSphere-Proxy 等测试所需进程,通过客户端连接 Proxy 运行测试用例并断言。

前段时间,有几次在 GitHub Actions 上运行的集成测试发生超时退出,但是从日志上看,发生超时情况时都还没有开始运行测试用例,很可能是卡在环境准备阶段。

在开发 ShardingSphere 的过程中,也有本地运行集成测试的需求。有一次,在本地运行集成测试时,发现测试运行了十几分钟还是没有动静。

排查过程

代码路经确认

通过 top 命令观察,发现 Java 进程 CPU 100%,只有其中一条线程 100%。
jstack 观察到,消耗 CPU 的应该只有主线程 main,CPU 100% 的情况已经跑了接近 20 分钟了。以下为 jstack 输出结果节选:

"main" #1 prio=5 os_prio=0 cpu=1161262.57ms elapsed=1164.15s tid=0x00007feca80259b0 nid=0x22f2ae runnable  [0x00007fecadfb5000]
   java.lang.Thread.State: RUNNABLE
	at org.testcontainers.shaded.okio.Buffer.getByte(Buffer.java:312)
	at org.testcontainers.shaded.okio.RealBufferedSource.readHexadecimalUnsignedLong(RealBufferedSource.java:310)
	at org.testcontainers.shaded.okhttp3.internal.http1.Http1ExchangeCodec$ChunkedSource.readChunkSize(Http1ExchangeCodec.java:492)
	at org.testcontainers.shaded.okhttp3.internal.http1.Http1ExchangeCodec$ChunkedSource.read(Http1ExchangeCodec.java:471)
	at org.testcontainers.shaded.okhttp3.internal.Util.skipAll(Util.java:204)
	at org.testcontainers.shaded.okhttp3.internal.Util.discard(Util.java:186)
	a分析t org.testcontainers.shaded.okhttp3.internal.http1.Http1ExchangeCodec$ChunkedSource.close(Http1ExchangeCodec.java:511)
	at org.testcontainers.shaded.okio.ForwardingSource.close(ForwardingSource.java:43)
	at org.testcontainers.shaded.okhttp3.internal.connection.Exchange$ResponseBodySource.close(Exchange.java:313)
	at org.testcontainers.shaded.okio.RealBufferedSource.close(RealBufferedSource.java:476)
	at org.testcontainers.shaded.okhttp3.internal.Util.closeQuietly(Util.java:139)
	at org.testcontainers.shaded.okhttp3.ResponseBody.close(ResponseBody.java:192)
	at org.testcontainers.shaded.okhttp3.Response.close(Response.java:290)
	at org.testcontainers.shaded.com.github.dockerjava.okhttp.OkDockerHttpClient$OkResponse.close(OkDockerHttpClient.java:285)
	at org.testcontainers.shaded.com.github.dockerjava.core.DefaultInvocationBuilder.lambda$null$0(DefaultInvocationBuilder.java:272)
	at org.testcontainers.shaded.com.github.dockerjava.core.DefaultInvocationBuilder$$Lambda$178/0x0000000800ec12b0.close(Unknown Source)
	at com.github.dockerjava.api.async.ResultCallbackTemplate.close(ResultCallbackTemplate.java:77)
	at org.testcontainers.containers.output.FrameConsumerResultCallback.close(FrameConsumerResultCallback.java:100)
	at org.testcontainers.containers.wait.strategy.LogMessageWaitStrategy.waitUntilReady(LogMessageWaitStrategy.java:51)
	at org.testcontainers.containers.wait.strategy.AbstractWaitStrategy.waitUntilReady(AbstractWaitStrategy.java:35)
	at org.testcontainers.containers.GenericContainer.waitUntilContainerStarted(GenericContainer.java:892)
	at org.testcontainers.containers.GenericContainer.tryStart(GenericContainer.java:440)
	at org.testcontainers.containers.GenericContainer.lambda$doStart$0(GenericContainer.java:325)
	at org.testcontainers.containers.GenericContainer$$Lambda$194/0x0000000800ece220.call(Unknown Source)
	at org.rnorth.ducttape.unreliables.Unreliables.retryUntilSuccess(Unreliables.java:81)
	at org.testcontainers.containers.GenericContainer.doStart(GenericContainer.java:323)
	at org.testcontainers.containers.GenericContainer.start(GenericContainer.java:311)
	at org.apache.shardingsphere.test.integration.env.container.atomic.DockerITContainer.start(DockerITContainer.java:49)
	at org.apache.shardingsphere.test.integration.env.container.atomic.ITContainers$$Lambda$95/0x0000000800d9ac08.accept(Unknown Source)
	at java.util.stream.ForEachOps$ForEachOp$OfRef.accept(java.base@17.0.1/ForEachOps.java:183)
	at java.util.stream.ReferencePipeline$2$1.accept(java.base@17.0.1/ReferencePipeline.java:179)
	at java.util.LinkedList$LLSpliterator.forEachRemaining(java.base@17.0.1/LinkedList.java:1242)
	at java.util.stream.AbstractPipeline.copyInto(java.base@17.0.1/AbstractPipeline.java:509)
	at java.util.stream.AbstractPipeline.wrapAndCopyInto(java.base@17.0.1/AbstractPipeline.java:499)
	at java.util.stream.ForEachOps$ForEachOp.evaluateSequential(java.base@17.0.1/ForEachOps.java:150)
	at java.util.stream.ForEachOps$ForEachOp$OfRef.evaluateSequential(java.base@17.0.1/ForEachOps.java:173)
	at java.util.stream.AbstractPipeline.evaluate(java.base@17.0.1/AbstractPipeline.java:234)
	at java.util.stream.ReferencePipeline.forEach(java.base@17.0.1/ReferencePipeline.java:596)
	at org.apache.shardingsphere.test.integration.env.container.atomic.ITContainers.start(ITContainers.java:82)
	- locked <0x000000061cefdc20> (a org.apache.shardingsphere.test.integration.env.container.atomic.ITContainers)
	at org.apache.shardingsphere.test.integration.container.compose.mode.ClusterComposedContainer.start(ClusterComposedContainer.java:64)
	at org.apache.shardingsphere.test.integration.engine.BaseITCase.setUp(BaseITCase.java:78)
	at jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(java.base@17.0.1/Native Method)
	at jdk.internal.reflect.NativeMethodAccessorImpl.invoke(java.base@17.0.1/NativeMethodAccessorImpl.java:77)
	at jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(java.base@17.0.1/DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(java.base@17.0.1/Method.java:568)
	at org.junit.runners.model.FrameworkMethod$1.runReflectiveCall(FrameworkMethod.java:50)

从代码路径上看,和等待容器就绪逻辑相关,看到有个 close 操作,结合容器所使用的等待策略为 LogMessageWaitStrategy,可能是正在关闭对 docker log 命令对应的接口的调用。

	at org.testcontainers.containers.output.FrameConsumerResultCallback.close(FrameConsumerResultCallback.java:100)
	at org.testcontainers.containers.wait.strategy.LogMessageWaitStrategy.waitUntilReady(LogMessageWaitStrategy.java:51)

定位到相关代码,close 方法在 LogMessageWaitStrategy.java:51,代码中没有直接 close 方法,而是通过 try-with-resources 代码块隐式调用。
在这里插入图片描述
能够走到 close 方法,说明 51 行上面的等待逻辑已经执行结束或者抛出了异常。但如果是 callback.close() 方法内部产生了死循环,从日志和代码路径可能无法确定逻辑是正常结束还是抛了异常。

从内存快照上来看,好像既没有 TimeoutException,也没有 ContainerLaunchException,所以代码可能没有发生异常。
在这里插入图片描述

由于 jstack 是瞬时输出,在不确定代码是否陷入 getByte 方法死循环的情况下,可以用 async-profiler 做个 on-cpu 采样。
做了大约 78 秒 100 Hz 采样,样本数恰好 7800 左右,基本确定代码陷入了 Buffer.getByte 死循环导致 CPU 100%。
在这里插入图片描述

内存分析

确定代码陷入死循环,但原因还不明确。为尽可能收集信息,做了一次 Heap Dump 分析。
检查 Buffer 实例的信息,发现了问题:

在这里插入图片描述

咨询 okio 社区

我在 okio 社区提问了以上现象 Is it normal that the pos greater than limit in Buffer? #1133

得到的回复是:可能是多线程操作了线程不安全的 Buffer 导致的问题。
在这里插入图片描述

等等,好像并没有死循环

根据代码路径,查看循环代码。根据前面分析所得,代码应该是在 else 内的 while 循环:
在这里插入图片描述
循环的退出条件是 pos >= 0L,pos 在循环中不断 -2 的,如果 pos 是负数,持续 -2 是不是就能溢出为正数了?

这么看也许代码并没有进入死循环,可能只是执行的时间不够久?

打算用 jshell 执行循环累加 -2 模拟死循环情况,不过考虑到 long 类型的长度,先把步进调大一点。
在这里插入图片描述
执行发现,long 类型初始值 -1:

  • 每次加 -200,000,000 的话,需要 11 秒才能变为正数;
  • 每次加 -20,000,000 的话,需要 107 秒才能变为正数。

以此推算,如果每次加 -2,大约就需要 1,000,000,000 秒才能把 long 溢出为正数?

1000000000 / 3600 / 24 / 365 约等于 31.71 年

所以,代码实际上并没有进入死循环,只是还没有运行完! 🌚️🌚️

能否从内存快照发现其他问题?

粗略看了一下暂时没能发现新的点。从内存快照中只能看到目前只有 main 线程的栈中引用了这个存在问题的 Buffer。

如果大家有兴趣也可以下载内存快照和 JFR 文件分析看看。

testcontainers 100% CPU 采样与内存快照 https://download.youkuaiyun.com/download/wu_weijie/87522297

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wuweijie@apache.org

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值