【故障定位系列】电商业务系统告警频发,如何快速实现应用接口级故障定位

原文地址:https://www.databuff.com/infoDetail/blog95

摘要

常见的针对Web应用的故障定位方案,大多只能定位到服务级别,然而很多情况下我们需要知道对应的应用接口的情况,才能更有效的解决问题。如何才能实现更加细化的接口级别的根因定位?本文以某个电商业务为例,来解答这个问题。

1 故障场景

某一日,某电商业务系统中几十个服务同时出现告警,如下所示

image.png

经过几十分钟的排查,最终确定了如下故障结论

  • 定界到服务:根因节点定位到服务G,该服务影响了上游一系列的服务

  • 定位到接口:服务G的methodA接口存在故障,原因是访问DB的某个SQL耗时突增

2 定位难点和解决方案

2.1 故障根因服务节点定位

如何确定是自身、访问组件、访问下游服务的问题?

  • 首先,构建出实时的拓扑依赖关系

image.png

  • 然后,对下游组件或者服务进行异常检测,挑出符合当前服务的故障范围

image.png

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值