优化 EASY 回填队列:提升高性能计算调度效率
1. 引言
高性能计算(HPC)领域面临着构建可高效利用的超大规模平台的挑战。随着处理器数量的急剧增加,会产生更多的数据,同时新的计算系统需要处理更灵活的工作负载。然而,现有的资源管理系统难以充分支持这些需求,未来的调度器需要利用工作负载的灵活性来优化系统性能。
在 HPC 平台中,资源通常会面临众多用户提交作业的竞争,因此并行作业调度是充分利用资源的关键问题。高效的并行作业调度具有诸多好处,如提高机器利用率、能源效率、吞吐量和响应时间等。但调度问题不仅计算难度大,而且在实际操作中还存在许多不确定因素,导致实际生产平台目前主要依赖基于作业队列的简单启发式算法,其中最常用的是 EASY 回填策略。
EASY 策略虽然简单、执行速度快且能防止作业饥饿,但在累积成本指标(如作业平均等待时间)方面表现不佳。因此,许多 HPC 代码开发者和系统管理员希望通过重新排序主队列或回填队列来调整该启发式算法。然而,这种重新排序可能会导致调度中出现饥饿问题,从而在平均成本和最大成本之间产生两难选择。为了解决这个问题,本文引入了一种阈值机制来有效管理达到过大目标值的风险。
2. 相关工作
2.1 HPC 平台的调度启发式算法
并行作业调度在理论上已经得到了广泛研究,但在 HPC 实际应用中,由于实际影响、不同假设和固有不确定性,从业者和研究人员更倾向于使用和研究简单的启发式算法。HPC 平台最常用的两种启发式算法是 EASY 和保守回填算法。保守回填算法虽然有很多优点,但计算开销较大,这可能解释了为什么大多数排名前 500 的机器仍然使用 EASY 回填算法的变体。
超级会员免费看
订阅专栏 解锁全文
4233

被折叠的 条评论
为什么被折叠?



