2、提前预测作业状态,避免失败风险

提前预测作业状态,避免失败风险

1. 作业状态概述

作业状态指的是作业退出集群系统的模式。Parallel Workloads Archive (PWA)定义了四种作业状态:
- 成功完成的作业
- 失败的作业
- 用户取消的作业
- 系统取消的作业

失败的作业通常由于编程错误或预留资源耗尽而提前完成。用户可取消正在运行或等待执行的作业,一般是在作业的中间结果表明无需继续执行,或者存在明显配置错误的情况下。系统取消作业的原因众多,常见的是作业超出用户请求的运行时间。

不同计算机集群中,作业状态的分布有所不同。例如,只有HPC2N - 2002工作负载仅包含成功完成的作业;在部分工作负载中,用户取消的作业占总运行时间的比例最高达8%;SDSC - BLUE - 2000和SDSC - SP2 - 1998工作负载中,系统取消的作业分别占总运行时间的20%和30%;在七个计算机集群中出现了失败的作业,LLNL - Atlas - 2006上失败作业甚至占用了超过50%的总运行时间。

2. 作业状态预测的意义与挑战

通过分析集群使用历史,可以对作业状态进行预测。但由于无法实现完美的状态预测率,在使用预测的作业状态时需谨慎,以确保集群调度器的预期行为。

成功的作业状态预测有诸多潜在好处:
- 针对可能失败的作业 :提高其优先级,使其更早执行,让用户能更快处理故障并重新提交作业。用户还能识别可能出现相同故障的类似作业并提前取消,避免失败作业的执行,提高集群效率。不过,这可能存在恶意用户歪曲作业状态以获取更好服务的风险。
-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值