大家好,我是鸭血粉丝(大家会亲切的喊我 「阿粉」),是一位喜欢吃鸭血粉丝的程序员,回想起之前线上出现 OOM 的场景,毕竟当时是第一次遇到这么 紧脏 的大事,要好好记录下来。
1 事情回顾
在某次周五,通过 Grafana 监控,发现线上环境突然出现CPU和内存飙升的情况:
但是看到网络输出和输入流量都不是很高,所以网站被别人攻击的概率不高,后来其它服务器的负荷居高不下。
阿粉先 dump 下当时的堆栈信息,保留现场,接着进行了简单的分析,为了稳住用户,通知运维一台一台服务器进行重新启动,让大家继续使用服务。
接着就开始分析和回顾事情了
2 开始分析
2.1 日志分析
建议大家了解一些常用的 Linux 语法,例如 Grep
查询命令,是日志分析的一大利器,还能通过正则表达式查询更多内容。
既然服务器在某个时间点出现了高负荷,于是就先去找一开始出现问题的服务器,去找耗时比较长的服务,例如我当时去找数据库耗时的服务,由于发生 OOM 时的日志已经被刷掉,于是我大致描述一下:
[admin@xxx xxxyyyy]$ grep