可观测性:从组织文化到实际落地
1. 可观测性的成果与应用
可观测性在 IT 领域有着重要的成果体现,主要包括仪表盘、警报和事件。这些成果为 IT 环境提供了可视化的洞察和通知。
1.1 警报与事件管理
应用团队负责设置警报,并在需要时与可观测性工程师协作。他们也是警报的主要使用者。当应用或相关服务出现问题时,应用团队有责任调查并解决问题。可观测性团队的职责包括帮助应用团队设置警报、维护可观测性平台的健康,确保应用专家及时得到通知。
应用团队每天可能会收到多个关于应用不同问题的事件。每个事件都有一个严重级别,定义了必须解决该事件的时间。高优先级事件会首先得到解决。一个高质量的配置管理数据库(CMDB)有助于评估事件对其他应用和服务的影响。在发生高严重级事件时,相关应用的维护人员也会得到通知,以便他们监控自己的应用并帮助确定当前事件的全部范围。
在可观测性实施过程中,团队需要定期评估现有的警报和事件是否有用。可以通过与用户讨论或关注用户对警报和事件的评论来进行评估。如果经常看到事件以“误报,忽略”等评论关闭,这是一个危险信号,应尽快解决。可以与用户讨论,然后禁用警报或进行调整,使其更有帮助。
1.2 自我修复功能
自我修复的基础设施、应用或服务被认为是 IT 运营人工智能(AIOps)和自动化的下一步。通过实施可观测性,开发人员和工程师可以生成并摄取大量与应用或服务相关的数据。可观测性工具可以利用这些数据检测性能偏差、服务不稳定以及潜在的故障。一旦检测到这些问题,信息可以传递给下游系统,如自动化工具,以调用可用于解决或恢复应用或服务健康的工作流程。
常见的做法是使用 Shel
超级会员免费看
订阅专栏 解锁全文
849

被折叠的 条评论
为什么被折叠?



