【Slurm常用命令】

本文介绍了Slurm集群管理系统中用于查询作业状态、监控资源使用的常用命令,包括查询指定时间段作业详情、当前排队和运行作业数量、异常及完成作业统计,以及查看节点状态和队列信息。这些命令对于有效管理和优化Slurm集群资源至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Slurm常用命令

查询指定时间段作业详情

sacct -n -a -p --starttime 2021-10-07T00:00:00 --endtime 2021-10-07T10:00:00 --format=JobId,state,user,account,partition,jobname,nodelist,nnodes,submit,start,end,suspended,ncpus,MaxRss,elapsed,allocgres

当前排队作业数量

sacct --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep PENDING

当前运行数量

sacct --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep RUNNING

近几分钟内异常退出作业数量

sacct -S2020-03-09-16:00:00 -E2020-03-10-16:00:00 --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep FAILED

近几分钟内正常完成作业数量

sacct -S2020-03-09-16:00:00 -E2020-03-10-16:00:00 --allocations --format=Jobid,Jobname,partition,AllocCPUS,State,ExitCode,ReqGRES|grep COMPLETED

当前可用节点数量

sinfo --states=idle

当前异常节点数量

sinfo --states=down

当前作业运行节点数量

sinfo --states=alloc

查看队列状态

sinfo -O partitionname,nodes,time,cpusstate:.30

输出

在这里插入图片描述

字段备注
PARTITION队列
NODES队列节点数
TIMELIMIT运行时间限制
CPUS(A:占用核数、I: 空闲核数、O:不可用核数、T:总核数)

查看当前运行或排队的作业号

squeue -h -o "%.18i "

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wang_xiaoxin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值