ASDF:分布式系统性能问题自动化在线诊断框架
1. Hadoop黑盒分析
在Hadoop系统中定位从节点性能问题时,我们提出一个假设:可以通过从节点间的对等比较来定位存在性能问题的特定节点。其背后的直觉是,在无故障情况下,从节点平均会进行相似的处理(映射任务或归约任务),因此黑盒和白盒指标在各节点上的表现相似。即使工作负载发生变化,由于所有从节点上的映射或归约任务数量可能会同时增加或减少,这些指标的表现仍会相似。但当某个从节点出现故障时,该故障节点的黑盒和白盒指标会与其他无故障节点有显著差异。
此假设基于两个前提:
- 所有从节点是同质的。
- 系统中超过一半的节点无故障(否则可能会误判无故障节点)。
分析算法会收集所有从节点的黑盒和白盒指标。在大小为 windowSize 的窗口内,每秒从每个节点收集一次白盒和黑盒指标样本。连续收集指标的窗口可以有 windowOverlap 的重叠。
黑盒定位器的具体步骤如下:
1. 特征化工作负载 :使用节点的所有黑盒指标来表征该节点感知到的工作负载。通过将其指标向量与预先确定的一组质心向量进行相似度比较来对工作负载进行分类,使用最近邻(1 - NN)方法确定最接近的质心向量。预先确定的质心向量集是使用无故障训练数据通过离线k - 均值聚类生成的。
2. 数据预处理 :为了减少许多黑盒指标的动态范围,使用每个指标样本的对数( log(x + 1) ),并将得到的对数指标样本按无故障训练数据上计算的对数标准差进行缩放。
超级会员免费看
订阅专栏 解锁全文
38

被折叠的 条评论
为什么被折叠?



