批处理调度器:化繁为简
1. 无管理系统的混乱
当你的计算资源需求增长,开始使用更大的多用户集群时,无管理系统的混乱就会显现。多个并行作业在计算节点上相互冲突,导致作业运行速度变慢,甚至崩溃。
随着高性能计算系统规模和用户数量的增加,为系统添加管理变得十分必要。安装批处理调度器可以解决这一问题,让用户作业能够有序运行,实现硬件资源的独占使用。不过,批处理系统并非万能,它需要大量的系统管理时间,还需要建立不同的队列和策略。良好的策略能让你在固定时间段内独占分配的计算节点。
系统管理软件带来的秩序对于并行应用的性能至关重要。以Beowulf集群为例,20世纪90年代末,人们意识到仅有计算硬件是不够的,还需要软件控制和管理才能使集群成为高效的资源。
2. 常见批处理调度器介绍
有许多不同的批处理调度器,每个安装都有其独特的定制。这里介绍两种免费的批处理调度器:可移植批处理系统(PBS)和简单Linux资源管理实用程序(Slurm)。
- PBS调度器 :1991年起源于美国国家航空航天局(NASA),1998年以OpenPBS的名称开源发布。随后,出现了商业版本,如Altair的PBS Professional和Adaptive Computing Enterprises的PBS/TORQUE。免费版本仍在小型集群中广泛使用,大型高性能计算站点通常使用类似版本并签订支持合同。
- Slurm调度器 :2002年起源于劳伦斯利弗莫尔国家实验室,最初是用于Linux集群的简单资源管理器,后来衍生出了多种版本,如SchedM
超级会员免费看
订阅专栏 解锁全文
16

被折叠的 条评论
为什么被折叠?



