一、背景
服务器出现CPU打满报警,并且服务TP99飙升至1.3s+,依赖方反馈大量超时。
二、处理过程
1.查看服务器指标
首先查服务器的各种指标,根据指标值和趋势大概确认问题。可以看到CPU已经很耗尽了,load彪高比较严重


而且此时ygc的次数和耗时都有明显增加,这些指标都会严重影响TP99.


上边这些趋势图和业务QPS趋势吻合,初步推断是由于超过单机处理QPS阈值。
2.紧急处理
- 根据初步推断采集CPU数据保留现场
- 根据初步推断结果采用扩容方案进行止损。果然扩容后服务趋于稳定。
三、问题分析
1.TP99为什么升高?
因为CPU打满,