记一次服务器负载飙高排查过程
问题描述
在前天呢,我们公司的三台部署着php项目的线上服务器A、B、C,其中一台服务器A出现了CPU负载飙高,与其他两台服务器相差好几倍,并且在前天之前都没有出现过这么高的情况,所以需要针对问题进行排查
排查过程
首先第一件事,找日志,看看异常的时候到底在干什么,找到服务器top日志,找到对应负载上升和下降的连续时间的日志(下面截图已做处理)
上面三个截图对应的是第一个负载图顶点附近的日志,可以看到,28688这个进程占用了大量的CPU
继续查看日志,A服务器在第二天负载突增的时间点,也是这个28688,截图我就不放了,那看起来就是这个进程的原因?
遗憾的是,这个28688的进程是一个监控程序,运维在几