slurm 有节点一直是down*状态

解决Slurm节点登录问题：NVIDIAGPU配置错误与恢复,

原创已于 2024-02-01 17:28:59 修改 · 3.4k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#服务器 #linux #运维

于 2024-02-01 17:26:41 首次发布

文章讲述了在节点上遇到登录问题，发现gres.conf文件中引用的/dev/nvidia0不存在。通过执行nvidia-smi显示GPU信息并创建/dev/nvidia0，修复了Slurm服务并更新节点状态的过程，参考了SimpleLinuxUtilityforResourceManagement文档。

1. 节点是可以ping通，也可以登录上去

2. 登录有问题节点后，

service slurmd status

显示信息里有报错提示：

fatal: can't stat gres.conf file /dev/nvidia0: No such file or directory

gres.conf 文件（/opt/slurm/etc/gres.conf）里表明该节点有个tesla的GPU卡，它引用了/dev/nvidia0文件

NodeName=节点名 Type=tesla Name=gpu File=/dev/nvidia0

在该节点ls /dev 确实是没有看到/dev/nvidia0文件

3. 在该节点执行以下命令后，确实是显示了GPU卡的信息

nvidia-smi

4. 神奇的是，执行完这个nvidia-smi后，/dev/里有nvidia0了。于是启动该节点的slurmd服务

service slurmd start

清除该节点的down状态

scontrol update NodeName=节点名 State=idle

5. 问题解决

解决问题过程参考了以下文档的提示： Simple Linux Utility for Resource Management

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

japrin

关注关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

CentOS上slurm集群修复节点的nvidia驱动，解决僵尸进程并重启节点

weixin_58468427的博客

11-21

751

slurm集群的10，13， 14节点的nvidia-driver失效。

【集群】Slurm作业调度系统的使用

丑小鸭

02-11

8704

【集群】Slurm作业调度系统的使用

参与评论您还未登录，请先登录后发表或查看评论

slurm平台Orphan Step导致节点状态变为down

大新新大浩浩的博客

05-18

1225

slurm Orphan step导致node变为down的问题处理记录

slurm节点,分区,作业信息说明

u010797364的博客

10-12

2万+

节点状态查看命令： sinfo 说明： PARRITION：节点所在分区 AVAIL：分区状态，up 标识可用，down 标识不可用 TIMELIMIT：程序运行最大时长，infinite 表示不限制，如果限制格式为 days-houres:minutes:seconds NODES：节点数 NODELIST：节点名列表 STATE：节点状态，可能的状态包括： allocated、alloc ：已分配 completing、comp：完成中 down：宕机 drained、drain：已失去活力 f

Slurm Node unexpectedly rebooted, reboot issued, reboot timeout, slurm计算节点down

xuecangqiuye的博客

07-21

2876

Slurm计算节点手动重启后，管理节点会将此计算节点的状态置为DOWN 可在Slurm管理节点使用下面的命令，恢复计算节点状态 scontrol update NodeName=nodename State=RESUME

slurm计算节点变成down*状态解决办法

weixin_44047008的博客

10-08

1万+

参照官网说明Slurm Workload Manager - scontrol update NodeName=c11State=RESUME命令即可

linux新建可以ping用户及组,Linux基础操作

weixin_42699679的博客

05-11

189

一、目录处理命令ls [选项][参数] --list路径 /bin/ls-a 所有文件，包括隐藏文件，以“.”开头的文件是隐藏文件(all)-l 长格式显示-h 人性化显示文件大小-d 查看目录信息，一般与 -l 联系-i 查看文件的i节点？mkdir make directories路径 /bin/mkdirmkdir -p [目录]创建新目-p 递归创建可以同时...

slurm节点总是down*

最新发布

02-21

当遇到Slurm集群中的节点频繁处于`down`状态时，可以从多个角度排查并解决问题。首先确认这些节点是否真的硬件故障还是由于配置或其他软件层面的原因。 #### 检查物理连接与硬件健康状况对于实际存在硬件问题的...

Slurm问题-关于节点共享队列以及配置cgroup的问题

weixin_43537820的博客

03-10

4171

Slurm节点共享队列，以及cgroup细化资源粒度的问题

【Slurm】Slurm使用故障&workaround记录

onlyellow的博客

03-14

3175

state直接重置为IDLE也行。看网络文章区别在于，如果有job在该node上运行，建议用RESUME;如果没有job运行可以用IDLE。什么原因导致的还不清楚。

高性能计算集群系统，SLURM集群管理系统基本的组件以及使用方法打、命令参数以及SLURM脚本的编写方法

04-16

**SLURM节点状态：** 节点状态反映了节点的运行情况，包括`Allocated`（分配）、`Allocated+`（完成中）、`Completing`（正在完成）、`Down`（不可用）、`Drained`（不能处理请求）、`Draining`（正在释放）、`Fail...

Slurm 作业调度系统使用指南

荣合技术外包服务

05-24

2469

目前作者使用设备可直接登录计算节点，暂未使用。更多参数见srun --help, sbatch --help, salloc --help。#SBATCH --ntasks-per-node=16 %指定每个节点进程数/核数,使用-n参数（优先级更高），变为每个节点最多运行的任务数。--ntask-per-node=N #指定每个节点进程数/核数，使用-n参数后变为每个节点最多运行的进程数。-c, --cpu-per-task=NCPUs #指定每个进程使用核数，不指定默认为1。

Slurm--资源管理系统

发呆的比目鱼的博客

08-01

2917

Slurm--资源管理系统

Slurm常用命令总结

小男孩儿的博客

12-31

1万+

查看slurm中集群列表的命令 sacctmgr show cluster 修改配置文件后使配置文件生效 scontrol reconfig 或重启 slurmctld服务显示slurm系统配置命令 scontrol show config systemctl启动、停止、重启、查看slurmctld.service的命令 systemctlstartslurmctld.service systemctlstop slurmctld.service systemct...

Slurm学习笔记（二）

种花家的奋斗兔的博客

01-05

5368

Slurm学习笔记（二）上文：https://eternal-sun.blog.youkuaiyun.com/article/details/112208409 一、查看队列详细信息 scontrol show partition显示全部队列信息，scontrol show partition PartitionName或 scontrol show partition=PartitionName显示队列名PartitionName的队列信息，输出类似： PartitionName=debug .

Slurm集群使用基础

Asa12138的博客

05-29

4966

我们在做生物信息分析时，对于大规模的上游数据的处理，一般需要在大型服务器或集群上进行。我最早接触并使用的是一个基于SLURM调度系统的集群，在此记录一下基础使用方法。

SLURM 系统入门使用指南

qq_33275276的博客

03-23

1万+

简介 SLURM （Simple Linux Utility for Resource Management）一种可用于大型计算节点集群的高度可伸缩和容错的集群管理器和作业调度系统常用命令 sacct：查看历史作业信息 salloc：分配资源 sbatch：提交批处理作业 scancel：取消作业 scontrol：系统控制 sinfo：查看节点与分区状态 squeue：查看队列状态 s...

Slurm作业提交、查询、修改等常用命令