JAVA应用CPU跳点自动DUMP工具 | 京东物流技术团队

原创

于 2024-02-01 12:03:36 发布 · 1.1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#java #python #开发语言

背景

在做系统监控时，CPU的使用率是一个关键的指标，它反映了系统的性能稳定性以及是否存在异常情况，能帮助我们了解系统的负载情况。通过监控CPU使用率，可以判断系统是否正常运行或者是否存在性能问题。如果CPU使用率过高，可能表示系统存在资源瓶颈，需要进行优化或升级。

CPU监控的难点

现有的监控平台提供了多种方式来获取容器和JVM的CPU使用率，并能够实时发送CPU跳点的报警。然而，对于运维人员来说，这些功能远远不够，因为我们需要深入了解导致CPU高的原因。由于CPU是一个动态变化的指标，仅仅在收到报警后通过运维平台的手动操作进行排查，很难抓住事故发生的现场情况。因此，我们需要一个能够自动记录现场的工具。

自动DUMP工具

对于Linux系统，我们可以通过设置一个周期的定时任务来检测CPU使用率。如果我们发现CPU使用率高，我们可以获取CPU使用率高的线程，并进一步处理JVM线程抓包的问题。

我们可以使用top命令来获取进程的CPU使用率以及线程的CPU使用率。针对JAVA应用程序，我们可以使用Jstack来dump当前线程的堆栈信息。然后，我们可以解析这两者的输出，并通过线程号进行匹配，最终生成一个包含CPU使用率的线程堆栈清单。最后，我们可以将此清单持久化到一个文本文件中。

最终的输出文件格式如下：

当前JAVA进程ID:205
当前JAVA进程ID(205)CPU使用率:99%
Top 10 CPU占用线程信息：
=======================================================
线程TID: 1511, THREAD_NID:5e7, CPU使用率: 77.2%
"Thread-31" #415 daemon prio=5 os_prio=0 tid=0x00007f00900cc800 nid=0x5e7 runnable [0x00007f01c5839000]
java.lang.Thread.State: RUNNABLE
at 
...
...