Slurm常用命令总结

男孩李

已于 2023-07-19 15:06:18 修改

阅读量1.7w

点赞数 10

分类专栏：高性能计算文章标签： linux 运维服务器

于 2021-12-31 09:55:29 首次发布

本文链接：https://blog.youkuaiyun.com/lovebaby1689/article/details/122250008

版权

高性能计算专栏收录该内容

21 篇文章

订阅专栏

1.常用命令及功能介绍

sacct：显示激活的或已完成作业或作业步的记账（对应需缴纳的机时费）信息。
salloc：为需实时处理的作业分配资源，典型场景为分配资源并启动一个shell，然后用此shell执行srun命令去执行并行任务。
sattach：吸附到运行中的作业步的标准输入、输出及出错，通过吸附，使得有能力监控运行中的作业步的IO等。
sbatch：提交作业脚本使其运行。此脚本一般也可含有一个或多个srun命令启动并行任务。
sbcast：将本地存储中的文件传递分配给作业的节点上，比如/tmp等本地目录；对于/home等共享目录，因各节点已经是同样文件，无需使用。
scancel：取消排队或运行中的作业或作业步，还可用于发送任意信号到运行中的作业或作业步中的所有进程。
scontrol：显示或设定Slurm作业、队列、节点等状态。
sinfo：显示队列或节点状态，具有非常多过滤、排序和格式化等选项。
squeue：显示队列中的作业及作业步状态，含非常多过滤、排序和格式化等选项。
srun：实时交互式运行并行作业，一般用于段时间测试，或者与sallcoc及sbatch结合。

2.查询作业:sacct

参数	解释
-E, --endtime=end_time	查询在指定时间之前，任何状态的作业.如果通过-s参数指定状态则返回在此时间之前的指定状态的作业，有效格式为： HH:MM[:SS] [AM\|PM] MMDD[YY] or MM/DD[/YY] or MM.DD[.YY] MM/DD[/YY]-HH:MM[:SS] YYYY-MM-DD[THH:MM[:SS]]
-S, --starttime= starttime	在指定时间后，任何状态的作业
-T, --truncate	如果一个job在 --starttime之前开始运行，开始时间将被截断为 --starttime，同样的作业结束时间 = --endtime
-o, --format	指定显示字段以逗号分隔

3.节点操作: scontrol

下线节点:

scontrol update nodename=gv21 state=drain reason="hardware error"

上线节点:

scontrol update nodename=[node_name] state=idle

清空节点

scontrol update nodename=[node_name] state=down reson="debug"

节点恢复

scontrol update nodename=[node_name] state=resume

显示分区详情:

scontrol show partition [queue_name]

显示作业详情:

scontrol show job [jobid]

显示节点详情

scontrol show node nodes

显示配置详情

scontrol show config

修改配置文件后使配置文件生效

scontrol reconfig

4.用户管理操作 sacctmgr

4.1用户有关

查询用户

sacctmgr show user ***

添加用户

sacctmgr add user sghpc2 DefaultAccount=acct02 Qos=test_qos

修改用户

sacctmgr modify user sghpc2 set QoS=nomal

删除用户

sacctmgr delete user username

4.2账户相关

查询账户

sacctmgr show account ***

添加账户

sacctmgr add account acct

修改账户

sacctmgr modify account acc

删除账户

sacctmgr delete account acct

4.3QOS相关

查询QOs:

sacctmgr show qos mormal

添加QOs

sacctmgr add qos mormal

修改QOs

sacctmgr modify qos mormal

删除QOs

sacctmgr delete qos mormal

5.srun sbatch salloc 常用的作业提交参数

参数	参数解释
-J 或者 --job-name	指定作业名称
-p 或者 --partition	指定队列资源
-N 或者 –nodes= <number>	指定节点数量
-n 或者 --ntasks =<number>	指定处理器数量
-o 或者--output=<filename pattern>	指定 stdout 的输出文件
或者--error=<filename pattern>	指定 stderr 的输出文件，如果指定的文件已经存在，它将被覆盖。