使用LSF软件在集群中运行你的深度学习项目

本文详细介绍如何在包含GPU节点的集群中运行Python程序。通过创建并配置LSF批处理脚本,用户可以在指定的GPU节点上运行其任务。文章还提供了激活conda环境及提交作业的步骤,并附带了检查任务状态和GPU使用情况的命令。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

集群中有四台主机,master(无GPU),node01,node02,node03(GPU主机),直接运行

python main.py

程序将在CPU中运行。

如下步骤可以运行你的程序:
在你的文件目录下新建一个 lsf.sh 文件,正文写入:

#!/bin/sh                     
#BSUB -q normal         
#BSUB -o %J.out
#BSUB -e %J.err
#BSUB -n 1   
#BSUB -J JOBNAME		
#BSUB  -R span[ptile=1]     
#BSUB -m "node03"          
#BSUB  -gpu  num=1           
                           
python main.py   

其中 python main.py 是你运行程序的命令,然后:
source activate 你的conda环境
开启环境,用
bsub <lsf.sh向集群提交运算任务。
即可运行程序,终端会给你一个任务序号,输出文件就是序号.out序号.err

** 其他命令:**
bjobs -W查看你的任务运行状况
bhosts -gpu查看集群GPU使用情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值