线上机器cpu负载200%告警排查

本文介绍了在Java应用中遇到CPU过高告警时的排查方法,包括检查耗时进程、使用jstack查看线程快照、分析GC情况、识别内存泄漏。通过实例和工具如top、jstat、jmap等进行详细步骤说明。

CPU告警排查思路,正常情况就是如下两种情况

  • 执行任务的java线程本身存在bug,死循环或者操作本身耗cpu,导致cpu占用过高
  • jvm发生频繁gc,导致cpu过高

查看耗时较高的进程

  • top命令,并按大写P以cpu利用率排序,确定cpu占用最高的进程为 java进程

  • top -H -p [进程id],注意:此时的PID为线程ID,如下图所示

  • 计算java线程id的16进制值,用jstack看到的线程快照中,线程ID需要转换成小写十六进制值
  1. 可以借助在线转换工具:十进制转换 - 在线进制转换器
  2. linux系统也可以使用如下命令转换  printf "%x\n" [线程ID] 
printf "%x\n" 22304

使用Jstack查看线程快照

#grep的 -B n 前n行
#grep的 -C n 前后各n行
#grep的 -A n 后n行
jstack [进程ID] |grep [转换后的线程ID] -A 30

分析上图发现,查看完整堆栈定位代码位置,该线程进本都在执行

com.xxx.hub.util.CaseNodeParseUtil.addNodeToChildrenIfParentIdEqual(CaseNodeParseUtil.java:1363)

后续进一步分析,需要结合业务代码查看该部分是否存在耗时

查看GC情况

  • 首先使用top查看当前内存的使用情况

  • 查看gc次数,使用命令 jstat -gc [Java进程ID]:

结合上图可知YGC次数1232,FGC共468次

如果GC次数很多的情况,基本可以说明存在频繁GC导致cpu占用高的问题

GC参数说明

S0C:第一个幸存区的大小
S1C:第二个幸存区的大小
S0U:第一个幸存区的使用大小
S1U:第二个幸存区的使用大小
EC:伊甸园区的大小
EU:伊甸园区的使用大小
OC:老年代大小
OU:老年代使用大小
MC:方法区大小
MU:方法区使用大小
CCSC:压缩类空间大小
CCSU:压缩类空间使用大小
YGC:年轻代垃圾回收次数
YGCT:年轻代垃圾回收消耗时间
FGC:老年代垃圾回收次数
FGCT:老年代垃圾回收消耗时间
GCT:垃圾回收消耗总时间 

 使用命令dump 内存堆的存储快照,命令如下

jmap -dump:format=b,file=/tmp/mem.hprof [进程ID]

使用内存分析工具,如Eclipse Memory Analyzer等分析mem.hprof文件,分析内存哪部分占用大,存在内存泄露,导致空间无法释放。 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

漁陽

彼此共勉,砥砺前行

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值