作业调度中提供硬服务质量保证的技术
1. 引言
在共享资源的超级计算机中心,批处理作业调度器常用于调度并行作业。其典型模式是在作业提交时,若资源(处理器、内存)可用,就将其分配给作业;若资源不可用,作业则会被排队,待资源可用时再开始执行。作业的周转时间或响应时间是其在作业队列中等待资源的时间与作业开始执行后的实际运行时间之和,用户通常根据使用的总资源(资源×运行时间)付费。
除了上述标准工作模式,近年来人们对作业调度中的硬服务质量(QoS)也越发关注,即保证作业的周转时间。这种QoS能力在很多情况下都很有用,例如科学家可以在晚上下班前提交作业,并要求作业在第二天早上8点前完成,以便第二天回来就能看到结果。
提供作业调度QoS的问题可从三个相关方面来看,且这三个方面可相互分离:
1. 具有响应时间保证的作业调度 :提供一种调度器,允许用户明确指定作业完成的硬QoS要求,并在作业提交时执行这些要求。一旦作业被接受,系统应保证满足承诺的QoS要求。
2. 在QoS要求中建模用户容忍度 :不同用户对作业的截止时间有不同的容忍度。例如,用户可能希望作业在第二天早上8点她回来时完成,如果无法满足这个截止时间,第二天下午1点(午餐后)这个次优但可接受的截止时间也是可以的。
3. 硬QoS保证对系统资源使用的机会成本 :提供硬QoS保证的主要问题之一是,接受一个作业意味着要锁定承诺给该作业的资源,不能将其重新分配给其他作业。例如,如果用户估计作业运行时间为一小时,但作业5分钟就完成了,那么资源可能会闲置55分钟。此外,假设系统只有接受一个作业的资源,一个
超级会员免费看
订阅专栏 解锁全文
1428

被折叠的 条评论
为什么被折叠?



