Proctor: A Semi-Supervised PerformanceAnomaly Diagnosis Framework forProduction HPC Systems

本文介绍了一种名为Proctor的半监督框架,旨在使用少量有标签数据对高性能计算(HPC)系统进行故障诊断。通过统计特征提取、无监督预训练和监督训练阶段,Proctor能有效识别和诊断运行时的异常。实验对比了Proctor与其他基线方法,显示了其在性能诊断上的优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.概述

        对性能变异进行人为的根本原因分析是一件极其耗费时间的事情,因为这要依赖人类专家和数据增长的大小。尽管出现了许多有监督机器学习方法可以自动诊断出HPC系统中的异常,但是它们主要的缺点是:需要人类的操作员理解异常的根本原因以及去标注异常。有监督方法的一个共同缺点就是:需要有大量有标签数据进行训练。在真实环境中却没有很多的有标签的数据。

        文章提出了一种半监督的框架Proctor,可以使用少量的、有限的有标签数据对HPC系统进行故障诊断。

2.Proctor框架

说了这么多,Proctor长什么样子呀,直接上图~

Statistical Feature Extraction:

        文章使用Tuncer et al.’s easy-to-compute statistical features [40]将多元时间序列转换成适合proctor的数据格式。Statistical Feature Extraction方法独立于monitoring framework之外。

Unsupervised Pretraining

        训练autoencoder提取原始时间序列的特征,让autoencoder以无监督的方式去学习正常样本和异常样本的表示。训练autoencoder的目标是学习X和X‘尽可能相似的权重。

Supervised Training

        实现了两种不同的有监督训练模型去诊断出异常的类型,在评估中选择性能最好的那个。

一种模型是:fine-tuning。冻结预训

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值