一份完整的单机版slurm部署

本文详述了一台8卡GPU服务器上如何部署slurm,以便多人使用并实现任务调度。通过关闭防火墙、禁用selinux,安装munge和slurm,配置slurm.conf和启动服务,最终实现GPU资源的有序分配和计算任务的排队执行。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

场景使用:一台8卡gpu服务器,想要多人使用,每次提交任务可以使用一块卡【也可以使用两块,具体需要配置】,比如第9个人使用时就要排队,等前面8个人用完才可以使用gpu做计算,基于这样的一个情况,我研究了下slurm,花了两天时间终于实现了我需要的功能,以下是我所有的部署操作,一份很完整的单机slurm部署文档。

一、准备工作

  • 关闭防火墙、禁用selinux

  • 机器为两颗cpu,单颗16核心,8块RTX6000显卡

 

二、安装munge, munge用于创建和验证凭据的身份验证服务

1.安装munge

 yum -y  install libgcrypt openssl  epel-release

 

2.创建munge账户

export MUNGEUSER=2020

groupadd -g $MUNGEUSER munge

useradd  -m -c "MUNGE Uid 'N' Gid Emporium" -d /var/lib/munge -u $MUNGEUSER -g munge -s /sbin/nologin munge

yum -y  install  munge munge-libs munge-devel(默认会创建账户)

 

3.生成密钥

安装rng-tools以正确创建密钥:

yum -y install rng-tools

rngd -r /dev/urandom

/usr/sbin/create-munge-key -r

dd if=/dev/urandom bs=1 count=1024 > /etc/mu

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值