故事发生在8月11日的某个上午,上午的9:00-11:00会有公司组织的全国的线上的考试,当时出现了问题,问题表现:当时用户登陆之后,请求反映一直很慢,登陆可以成功,登陆的过程很慢,页面反映就直接卡住了。
当时的反应是,用户服务在Nginx上直接faild,然后nginx也挂掉了。但是同事解决的办法是,Java同事重启了用户服务,于此同时,运维同事重启了nginx服务器,然后考试恢复了正常,保证了整场考试顺利运行下来。
问题解决之后,但是到底是哪个环节出现了问题,大家都说不清楚。当初过程中,启动了nginx,然同事启动了用户服务,所以到底哪里出现了问题,成为了未知?接下来的一周,基本上都围绕在排查问题上。
一,当时负载很高,然后最后挂掉
二,用户服务当时确实当掉了一个节点,着重分析当时的用户请求量,哪些接口的响应时间长。同时日志分析,监控每段时间的用户请求量,接口响应时长,最后分析出来部分的接口。
但是最后并未找到确切的证据。最后开始从access_logs日志查起来,但是当时并未找到错误日志,一切都陷入了未知的困境。
三,周三再次发生状况
周三下午1:00左右,又出现了用户不能够登陆,所有的服务都响应不了的状况,大约持续了将近1个小时,