- 当线上接口的 TP99 突然升高时,意味着该接口在 99% 的情况下响应时间变长,这可能会严重影响系统的性能和用户体验。可以按照下面的步骤进行排查。
- 这里我们先说明一下如何计算tp99:监控系统计算 TP99(第 99 百分位数的响应时间)
- 排序法
数据收集:监控系统会持续收集接口的响应时间数据,这些数据可以是每秒、每分钟或者其他时间间隔内的响应时间样本。
排序:将收集到的一定时间窗口内(如一分钟、一小时等)的所有响应时间数据进行排序,从最小值到最大值排列。
定位 TP99:计算数据总数的 99% 位置所对应的响应时间值。假设在一个小时内收集到了 1000 个响应时间数据点,那么第 990 个位置(1000×99% = 990)的数据值就是 TP99。如果数据点的数量不是整数,可以通过插值的方法来确定 TP99 的值。 - 分桶法
确定桶的范围和大小:将响应时间划分为多个连续的区间,即 “桶”。例如,以 0-100 毫秒、100-200 毫秒、200-300 毫秒等为桶,每个桶有一个固定的范围。
数据分组:将收集到的响应时间数据分配到对应的桶中,统计每个桶内的数据数量。
计算 TP99:从最小的桶开始,依次累加每个桶内的数据数量,直到累加的数量达到或超过总数据量的 99%。此时,当前桶的上限值或者通过在当前桶内进行进一步计算得到的值就是 TP99。
- 排序法
整体分析思路为:先整体后局部。先看整体服务CPU、内存等使用情况;再观察接口流量、调用链路。
1. 确认问题范围
- 监控数据收集:查看接口的监控数据,包括响应时间、吞吐量、错误率等指标的历史数据,

最低0.47元/天 解锁文章
1091

被折叠的 条评论
为什么被折叠?



