现象
15年5月25日下午6:30分,我们的QA收到我们的一个线上项目页面一定概率会出现ERROR页面。
当时问题分析及处理方案
此页面是nginx的error页面,并不是我们业务的500页面。通过每台机器ip直接访问,发现 其中有一台机器挂了。马上联系运维同学,重启tomcat后正常。
事后问题排查
1.查看业务log4j 日志
本文记录了一次由于Struts2中ognl模块的代码问题导致的Tomcat服务器阻塞的故障排查过程。问题表现为499错误码,服务器处理时间过长,线程大部分被阻塞。通过分析日志和线程快照,发现IntHashMap的get方法可能存在的死循环是原因,而Struts2的线程安全性成为疑点。

被折叠的 条评论
为什么被折叠?