记一次线上cpu飙升100%的排查过程

最新推荐文章于 2025-10-12 19:21:13 发布

原创最新推荐文章于 2025-10-12 19:21:13 发布 · 782 阅读

CC 4.0 BY-SA版权

文章标签：

77 篇文章

订阅专栏

9 篇文章

订阅专栏

记录了一次线上服务响应慢的问题排查过程，最终定位为数据库脏数据触发的死循环BUG。

大家好，我是烤鸭：

最近没怎么写技术文章，还是得回归下初心，正好前几天出现个线上问题，记录下排查过程。

某个时间点，接收到接口响应慢报警。

过一会收到服务器cpu可用率低(<10%)报警。

去cat上查看发现younggc次数频繁。

在这里插入图片描述

中间件和网络：

使用到的中间件包括 es、redis、mysql，分别去监控和连接查看，没问题。

网络也在机器上测试，没问题。
回滚和扩容

尝试回滚到上一个稳定版本和增加扩容机器。

还是有问题。
输出堆栈日志和gc快照，调整jvm参数。

其实堆栈日志是可以解决问题的，不过当天晚上排查的时候，没有过度关注业务方法，导致错过了问题根源。

gc快照分析结果，发现是tomcat的一个初始化对象占有较多（跟问题无关）。

在这里插入图片描述

cpu升高和gc频繁，其实是两个问题，都可能会引起服务不可用。

单纯的cpu升高，基本确认是死循环问题，抓到对应的堆栈信息即可。

#抓取进程中cpu消耗高的线程
top -Hp pid
#线程id转成十六进制
printf '%x\n' tid
#抓取java线程堆栈
jstak-l pid

而gc频需要查看gc日志，是否引起oom。

实时查看gc情况，每隔5s打印一下gc情况。

jstat -gcutil pid 5000

输出gc快照。

jmap -dump:format=b,file=/data/dump.hprof pid

然后使用eclipse mat 或者 jprofiler 进行分析。

当天忽略了堆栈日志，过多的关注在gc上。

排查问题的思维定式，排查思路和实际执行不严谨，以致于错过问题根源。

运行了几年的代码都没出问题，不代表代码本身没问题，以堆栈日志和gc日志为准。

根本原因就是数据库脏数据触发了代码中一个死循环bug(运行了一年才发现，也是醉了)