HPC作业调度预测方法与模块化工作负载格式解析
1. 作业调度预测方法概述
在作业调度预测领域,存在多种方法,如一些依赖机器学习领域专家对输入数据进行预处理、选择正确模型并优化参数的方法。近年来,自动化机器学习过程在预测作业运行时间方面也吸引了不少关注。不过,该领域虽有众多研究成果,但缺乏相应指标的对比。
2. 预测所需条件
为实现工具的可持续和可重复收集,需满足以下条件:
- 作业工作负载和元数据 :并行工作负载存档(Parallel Workload Archive)提供SWF格式的作业工作负载日志,包含大规模并行系统的详细工作负载日志。每个作业由一系列包含18列元数据的行表示,具体元数据如下:
1. 作业编号(Job Number):唯一作业标识符,也称为JobID。
2. 提交时间(Submit Time):从工作负载日志时间开始的秒数。
3. 等待时间(Wait Time):提交时间与开始时间的差值(秒)。
4. 运行时间(Run Time):作业实际运行的秒数。
5. 分配的处理器数量(Number of Allocated Processors):分配的核心或CPU的整数值,取决于配置。
6. 平均使用的CPU时间(Average CPU Time Used):用户和系统使用的总时间(秒)。
7. 使用的内存(Used Memory):每个核心平均使用的内存(千字节)。
8. 请求的处理器数量(Requested Number of Processors)。
9. 请求的时间(Requested Time):作业请求的运行时间
超级会员免费看
订阅专栏 解锁全文
61

被折叠的 条评论
为什么被折叠?



