一、背景
某一天早上,正在上班路上,突然间手机滴滴不断收到大量告警提醒,赶紧查看了下告警信息,结果显示某个接口出现大量超时,平均响应时间超过3s,这个时候怎么办,是不是有点慌?
二、此类问题解决思路
出现生产问题,我们绝对不能马虎放过抱着侥幸心里,必须要找到根本原因及时处理,防止下次留下更大的坑。那我们的处理思路是什么呢?我这里给大家分享以下
1)定位问题
首先我们要快速定位接口的哪一个环节比较比较慢,性能瓶颈在哪里?这个时候可以采用APM工具快速定位,常见的工具:skywalking、pinpoint、cat、zipkin
假如我们应用没有接入APM,可以在生产环境装一下阿里的Arthas, 利用trace 接口 方法,大概能分析是哪一块比较慢,定位的力度稍微有点粗糙
2)解决办法
. 扩容(应用自动扩容、redis扩容、mysql在线扩容、kafka分区扩容)
. 应用重启大法
. 优化代码逻辑,走hotfix发版解决
三、常见优化接口性能方案分析
1)数据库慢SQL
通过explain执行计划分析下
. 锁表(先把锁表的慢SQL kill一波)
. 未加索引
. 加了索引,索引失效(对索引加方法转换、区分度很低比如枚举值、索引列大量空值)
. 小表驱动大表(尽可能过滤数据)
. SQL太复杂(join超过3张表或者子查询比较多,建议拆分SQL为多个接口,比如先从某个主接口查某个表数据,然后关联字段作为条件从另外一个表查询,进行内存拼接)
. 返回的数据量数据量太大(可以分页多批次查询
线上突然遇到一个接口很慢怎么办?
于 2024-03-27 15:55:11 首次发布