数十年来,IT 管理员一直使用故障指标来跟踪其基础架构的可靠性和性能,无论是 PC 硬件、网络还是服务器。
毕竟,大多数专家都同意,要管理好某件事,就需要对其进行衡量。
数据工程师和 DataOps 团队还采用故障指标来衡量其数据和数据管道的可靠性,以及故障排除工作的有效性。
但是,当涉及到数据时,某些指标比其他指标更相关和有用,尤其是在当今云密集的环境中
这个博客对当今使用的十几个最常见的故障指标进行排名,按照对数据工程师的相关性和重要性排序,从最利基和最不相关的指标开始,最后是所有 DataOps 团队都应该跟踪的最重要的指标。之后,我将讨论像HK-Acceldata这样的连续多维数据可观察性平台如何在帮助数据工程师和数据可靠性工程师优化这些指标方面发挥重要作用。
12. 平均无故障时间 (MTTF)
从历史上看,该术语衡量的是正常操作条件下不可修复的硬件或设备的平均寿命。MTTF 对于监督任务关键型数据中心和本地数据服务器的数据工程师可能很有用,他们希望围绕硬盘或固态驱动器的预测寿命规划其硬件更新,其次是网络集线器、交换机和卡将数据从一个节点移动到另一个节点。
当然,此类硬件的责任通常主要由 IT 或网络管理员负责,从而降低了 MTTF 对数据工程师的重要性。随着许多组织将数据转移到托管提供商或云原生 Web 服务,MTTF 也变得越来越无关紧要。它通常也不如我稍后讨论的平均故障间隔时间( MTBF ) 有用。
11. 平均检测时间 (MTTD)
一种在网络安全界流行的指标,可以帮助衡量您的监控和可观察性平台以及自动警报的有效性。然而,过分强调 MTTD 可能适得其反。例如,针对最短 MTTD 进行调整的监控系统可能会变得过于迅速和过于频繁地发出警报。这可能会为小问题或彻底的误报创建一波警报潮。这会使数据工程师士气低落,并造成严重的警报疲劳问题。