深度解析观测云智能监控的核心设计原理

原创

于 2024-06-27 17:32:35 发布 · 1.3k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#智能监控

背景

在监控高度分布式的应用程序时，可能依赖于多个基于云的和本地环境中的数百个服务和基础设施组件，在识别错误、检测高延迟的原因和确定问题的根因都是比较有挑战性的。即使已经具备了强大的监控和警报系统，但是基础设施和应用程序也可能会随着时间的推移而发生变化，这很可能会导致难以可靠地检测异常行为，而对于 7 * 24 小时不间断运行的后台服务，监控告警是稳定性运行的基石。很多开发者都有过这样的经历，对服务的每一个指标都做了严格的监控和告警，唯恐漏掉告警导致问题无法发现，导致每天接收到大量的无效告警，告警的泛滥逐渐麻痹了警惕性，结果真实的问题初漏端倪时却被忽略，最终导致了严重的故障。如何提升告警的有效性，准确识别问题，同时又不至于淹没在大量的无效告警中，正是本文所探讨的内容。

智能监控系统在现代 IT 基础设施中扮演着至关重要的角色。它不仅有助于业务分析和用户行为分析，还能迅速定位故障根因。智能监控可以在业务类指标和波动性较强的指标中快速定位异常节点，适用于多维指标的关键维度定位。在微服务架构中，它通过分析服务调用和资源依赖来快速分析异常。

智能监控不需要配置检测阈值和触发规则，只需设定检测范围和通知人即可一键开启。基于智能检测算法，它可以识别异常数据并预测未来趋势。由于其高效性和准确性，智能监控在云平台的查看和管理中也占据了重要位置。

告警是可靠性的基础

首先来看一下告警的重要性，为什么我们需要耗费这么多精力来优化告警。虽然我们都期望一个服务是没有故障的，但事实确是不存在 100% 没问题的系统，我们只能不断提升服务的可靠性，我们期望做到：

对服务当前状态了如指掌，尽在掌控
能够第一时间发现问题，并且快速定位问题原因

要想做到以上两点，只能依赖完善的监控&告警，监控展示服务的完整运行状态，但是不可能一直盯屏观察，并且也不可能关注到所有方面，要想被动的了解系统状态，唯有通过告警，自动检测异常情况。所以说，告警是团队监控服务质量和可用性的一个最主要手段。

告警面临的现实问题

1、业务动态变化指标很难设定合适的静态阈值

随着业务的变化，相关的指标往往呈现出以小时、天、周为周期的季节性特征。这些指标本身就起伏不定，导致静态阈值、同比阈值都不好配。而采用偷懒的方式选择对所有应用/接口的响应时间、错误率和调用量等等指标配置成固定阈值自然会产生大量误告警。

2、相同指标不同应用中阈值不同

以应用响应时间指标为例，有的接口正常时响应时间可能在 200ms 左右，那么当响应时间大于 300ms 时就可以判定为异常。然而，真实的业务场景中有些接口长期访问量大，整体指标在 500ms 左右正常波动，所有这时候合适的告警阈值可能是 600ms 左右。而一个应用可能有几百个接口，这时要对所有接口配置合适的阈值，时间成本就会变得非常高。

3、指标的阈值会随着业务变化

随着公司业务发展、新应用上线，一些指标正常状态的阈值都会不断变化。如果没有及时更新阈值，就很容易产生大量误告警。