批处理调度器:化繁为简
在高性能计算领域,随着计算资源需求的增长和多用户集群的广泛使用,系统管理变得至关重要。本文将介绍两种免费的批处理调度器:可移植批处理系统(PBS)和简单 Linux 资源管理实用程序(Slurm),并探讨如何在繁忙的集群上高效、礼貌地工作,以及如何提交第一个批处理脚本。
1. 无管理系统的混乱
当你为团队搭建好新的集群并让软件运行起来后,很快会有同事登录并启动作业。此时,多个并行作业可能会在计算节点上相互冲突,导致作业变慢甚至崩溃,整个环境变得紧张。
随着高性能计算系统规模和用户数量的增加,为系统添加管理以实现有序运行并充分发挥硬件性能变得十分必要。安装批处理调度器可以解决这个问题,它能让用户作业有序运行,实现硬件资源的独占使用。然而,批处理系统并非万能药,它需要大量的系统管理时间,并需要建立不同的队列和策略。通过良好的策略,你可以在固定时间段内独占分配的计算节点。
系统管理软件带来的有序性对于并行应用程序的性能至关重要。以 Beowulf 集群为例,在 20 世纪 90 年代末,人们意识到仅仅拥有计算硬件是不够的,还需要软件控制和管理才能使集群成为高效的资源。
2. 在繁忙集群上避免成为麻烦制造者
繁忙的集群有大量用户和工作,通常会使用批处理系统来管理工作负载,以充分利用系统资源。在这样的集群上工作时,了解如何有效使用系统并体谅其他用户非常重要。
2.1 繁忙集群批处理系统的布局
大多数集群会预留一些节点作为前端,也称为登录节点,用户登录系统时会处于这些节点。系统的其余部分则作为后端节点,由批处理系统控制和分配。后端节点会组织成一个或多个队列,每个
超级会员免费看
订阅专栏 解锁全文
1138

被折叠的 条评论
为什么被折叠?



