可观测性中的警报与事件:原理、设置与管理
在当今的 IT 环境中,可观测性变得越来越重要。虽然仪表盘是监控和理解 IT 环境的重要工具,但仅依靠仪表盘是不够的,警报和事件在可观测性实施中发挥着不可或缺的作用。
1. 仪表盘与可观测性
仪表盘是增强对 IT 环境及其内部一切事物理解的可视化工具。它以处理和精简的格式呈现大量信息,易于理解,并且可以为不同层次的技术和业务受众构建。然而,仪表盘存在一定的局限性,它需要人工查看和解读信息,而且可用于查看仪表盘的人力和屏幕数量是有限的。
例如,MK Tea 有一个仪表盘来测量所有揉茶机的 RollingMachine.TeaRolledVolume 指标,并将其与特定型号的最大可能性能进行对比。在一个工作日的午餐时间,其中一台揉茶机的吞吐量开始下降,但负责查看仪表盘的工作人员不在,问题一个小时都未得到处理。等工作人员回来时,吞吐量已经下降了 50%,这导致整个生产线变慢,包装、运输和交付都出现了延迟,给公司造成了经济损失。
2. 警报和事件的引入
当仪表盘无法及时有效地传达信息时,警报和事件就发挥了作用。它们能够在系统检测到问题时自动通知负责的工作人员。在上述 MK Tea 的例子中,如果在揉茶机吞吐量下降 10% 时就通知技术人员,情况可能会得到更好的处理,从而节省时间和金钱。
在可观测性实施中,仅依靠仪表盘是不够的,需要在服务、应用程序和基础设施的重要功能上仔细设置警报,以便及时采取行动解决可能出现的问题。这里可以利用关键绩效指标(KPIs)来设置警报。
警报和事件常常被混淆,但它们是有区别的。在 IT 环境中,事件是警报和事件产生的原因。事件可以由应用
超级会员免费看
订阅专栏 解锁全文
36

被折叠的 条评论
为什么被折叠?



