【环境配置】Slurm作业调度运行python文件

最新推荐文章于 2025-10-08 11:27:16 发布

原创

最新推荐文章于 2025-10-08 11:27:16 发布 · 3.4k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #Slurm

本文介绍了SLURM资源管理系统，它是大型计算集群常用的作业调度和管理工具。通过`sbatch`命令提交作业，`sinfo`获取系统信息，了解分区名称以避免错误。在.sh文件中激活Anaconda环境并运行Python脚本，最后使用`sacct`检查作业状态。文章还提供了遇到问题时如何解决的实例，如检查partition名称。

Slurm资源管理系统介绍

SLURM （Simple Linux Utility for Resource Management）是一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统，被世界范围内的超级计算机和计算集群广泛采用。SLURM 维护着一个待处理工作的队列并管理此工作的整体资源利用。它以一种共享或非共享的方式管理可用的计算节点（取决于资源的需求），以供用户执行工作。SLURM 会为任务队列合理地分配资源，并监视作业至其完成。如今，SLURM 已经成为了很多最强大的超级计算机上使用的领先资源管理器，如天河二号上便使用了 SLURM 资源管理系统。

Slurm常用指令介绍

作业提交

根据自己的需求写好.sh文件，然后用命令行提交写好的.sh文件

sbatch job.sh

获取帮助信息

sbatch --help

获取系统信息

这是一个十分重要的信息，系统信息在参数赋值的时候会使用到。在我和同学尝试运行作业文件的时候，一直报错：no specificed partition，但是我们的作业文档是在学校系统里面直接复制过来的，只是在最后加了一个计算语句，后来通过查看系统信息才发现，高性能计算平台上partition定义的名称跟作业例子里使用的名称不一致，通过运行以下命令便可获得系统信息，输出的信息如下图，最左边的那一

最低0.47元/天解锁文章