记一次线上 OOM 和性能优化

大家好,我是鸭血粉丝(大家会亲切的喊我 「阿粉」),是一位喜欢吃鸭血粉丝的程序员,回想起之前线上出现 OOM 的场景,毕竟当时是第一次遇到这么 紧脏 的大事,要好好记录下来。

1 事情回顾

在某次周五,通过 Grafana 监控,发现线上环境突然出现CPU和内存飙升的情况:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zFcBaEhi-1577887891603)(http://www.justdojava.com/assets/images/2019/java/image_yjq/oom/grafana.jpg)]

但是看到网络输出和输入流量都不是很高,所以网站被别人攻击的概率不高,后来其它服务器的负荷居高不下。

阿粉先 dump 下当时的堆栈信息,保留现场,接着进行了简单的分析,为了稳住用户,通知运维一台一台服务器进行重新启动,让大家继续使用服务。

接着就开始分析和回顾事情了

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jqs8luV5-1577887891605)(http://www.justdojava.com/assets/images/2019/java/image_yjq/oom/%E4%B8%BA%E4%BB%80%E4%B9%88.jpg)]

2 开始分析

2.1 日志分析

建议大家了解一些常用的 Linux 语法,例如 Grep 查询命令,是日志分析的一大利器,还能通过正则表达式查询更多内容。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sEKPFMLP-1577887891605)(http://www.justdojava.com/assets/images/2019/java/image_yjq/oom/grep.png)]

既然服务器在某个时间点出现了高负荷,于是就先去找一开始出现问题的服务器,去找耗时比较长的服务,例如我当时去找数据库耗时的服务,由于发生 OOM 时的日志已经被刷掉,于是我大致描述一下:

[admin@xxx xxxyyyy]$ grep 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值