
故障定位
文章平均质量分 91
乒乓狂魔
这个作者很懒,什么都没留下…
展开
-
故障定位系列-3-容器资源故障
异常检测为了适应各种服务的波动,通常是突变检测,即产生突变即会认为是异常,对于 CPU 来说,很容易被突变检测认为是异常,因此还需要一些其他的一些抗干扰的检测能力。同时对 CPU 波动度进行打分,波动度越高得分高,根因排序的优先级就高,因此同一个服务内的各个根因都要有打分机制,通过打分机制来决定到底哪个更适合作为根因。当我们发现当前服务是根因服务时(即下游服务并未发现问题),我们就需要分析当前服务自身的问题。APM 数据要采集足够多的关联字段,才能跟其他各种环境的资源数据进行关联。原创 2025-04-11 09:53:18 · 792 阅读 · 0 评论 -
故障定位系列-2-共享连接池故障
service-o 的链路不会去访问 service-h,但是 service-h 故障会导致 service-o 故障,假如我们还按接口级链路去分析(service-o 的 callO 接口 ->service-p 的 callO 接口 ->service-l 的 callO 接口)就只能得出如下的结论。service-h 的 callB 接口故障 -》影响到 service-p 的 callB 接口 -》影响到 service-b 的 callB 接口。目前开放注册,可自主演练体验几十种故障场景。原创 2025-04-01 10:43:38 · 717 阅读 · 0 评论