分析遥测数据以更好地预测问题并实现目标
在当今的技术领域,我们需要足够的生产遥测数据来发现和解决应用程序及基础设施中出现的问题。通过分析这些数据,我们可以发现隐藏在其中的差异和微弱的故障信号,从而避免灾难性的故障。本文将介绍多种统计技术,并结合案例研究展示它们的应用。
1. 网飞的遥测数据应用案例(2012 年)
网飞是一家知名的在线视频服务提供商,其目标是为全球用户提供最佳的在线视频观看体验,这需要一个强大、可扩展且有弹性的交付基础设施。
网飞团队在管理基于云的视频交付服务时面临一个挑战,即在一个包含大量节点的无状态计算集群中,找出与其他节点行为不同的节点。为了解决这个问题,他们在 2012 年采用了异常值检测技术。
异常值检测的定义是检测可能导致显著性能下降的异常运行条件。网飞使用这种技术的方法很简单:首先计算当前计算集群中节点的“当前正常状态”,然后识别不符合该模式的节点,并将这些节点从生产环境中移除。
通过实施服务器异常值检测流程,网飞大幅减少了查找故障服务器的工作量,更重要的是,大大缩短了修复这些服务器所需的时间,从而提高了服务质量。
以下是网飞异常值检测流程的 mermaid 流程图:
graph LR
A[开始] --> B[计算当前正常状态]
B --> C[识别不符合模式的节点]
C --> D[从生产环境移除节点]
D --> E[记录或通知工程师]
E --> F[结束]
超级会员免费看
订阅专栏 解锁全文
358

被折叠的 条评论
为什么被折叠?



