原文地址:https://www.databuff.com/infoDetail/blog95
摘要
常见的针对Web应用的故障定位方案,大多只能定位到服务级别,然而很多情况下我们需要知道对应的应用接口的情况,才能更有效的解决问题。如何才能实现更加细化的接口级别的根因定位?本文以某个电商业务为例,来解答这个问题。
1 故障场景
某一日,某电商业务系统中几十个服务同时出现告警,如下所示

经过几十分钟的排查,最终确定了如下故障结论
-
定界到服务:根因节点定位到服务G,该服务影响了上游一系列的服务
-
定位到接口:服务G的methodA接口存在故障,原因是访问DB的某个SQL耗时突增
2 定位难点和解决方案
2.1 故障根因服务节点定位
如何确定是自身、访问组件、访问下游服务的问题?
- 首先,构建出实时的拓扑依赖关系

- 然后,对下游组件或者服务进行异常检测,挑出符合当前服务的故障范围


最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



