面试官:出现了性能问题,该怎么去排查呢?
程序猿:接口响应那么慢,时间都花到哪里去了?
运维喵:为什么你的应用跑着跑着,CPU 就接近 100%?
分享一些真实生产问题排查故事,看看能否涨姿势,能否 get 到其中之「趣」?
另外,为了方便收藏,文末把 Java 程序优化及问题排查套路,整理成了葵花宝典,一定要记得收藏呦。
1.
业务催的急,心发慌的现场!
2012 年,在一家支付公司做用户域的基础服务,每天做的事儿便是为满足业务需求,制定各种各样的 API。
某天,业务反馈线上调用查询省份地市接口频繁超时 ... ...
生产要敬畏,生产无小事。
于是乎,煎饼果子丢一旁。一边让业务同事提供调用接口时的唯一 ID(rpid,查询日志全靠它),一边找运维同事确认网络有没有问题、服务有没有问题,在排除环境没问题的前提下,快速根据 rpid 获取日志并进行分析。
日志记得好,排查问题没烦