Linux监听空闲GPU,定时运行多卡并行python程序

本文介绍了如何在Linux服务器上使用脚本来监控GPU状态,当检测到空闲GPU时自动运行多卡Python程序。通过gpustat工具获取GPU占用情况,使用shell脚本判断空闲GPU并启动训练脚本train_run.sh。此外,还配置了定时脚本time_run.sh,在特定时间点执行GPU监控任务。
部署运行你感兴趣的模型镜像

1.介绍

本脚本功能主要用于在linux服务器中检查空闲GPU,定时运行python程序。

2.脚本

2.1环境配置

下载安装gpustat

pip install gpustat

2.2运行程序脚本

train_run.sh这是我们需要运行的多卡程序脚本,其中$1,$2 对应显卡编号

# #!/bin/bash
export PYTHONPATH=$PYTHONPATH:$(pwd)
CUDA_VISIBLE_DEVICES=$1,$2  torchrun --nproc_per_node=2 --master_port=29509 URF/run_test.py --dataroot=./dataset/train/URF --n_ep=1000 --n_ep_decay=800 --resume=./checkpoint/initial_weights_128.pth --stage=RF --batch_size=2 --name=ttt

2.3监听空闲GPU脚本

gpu_monitor.sh是监听脚本

while true
do
  # shellcheck disable=SC1060
  # stat1-stat8 对应显卡数量
  # $09表示gpustat查询到的显卡占用显存
  # '2p-9p' 表示显卡号 '2p' 对应第一张显卡,依此类推
  stat1=$(gpustat | awk '{print $09}' | sed -n '2p')
  stat2=$(gpustat | awk '{print $09}' | sed -n '3p')
  stat3=$(gpustat | awk '{print $09}' | sed -n '4p')
  stat4=$(gpustat | awk '{print $09}' | sed -n '5p')
  stat5=$(gpustat | awk '{print $09}' | sed -n '6p')
  stat6=$(gpustat | awk '{print $09}' | sed -n '7p')
  stat7=$(gpustat | awk '{print $09}' | sed -n '8p')
  stat8=$(gpustat | awk '{print $09}' | sed -n '9p')
  stat_arr=($stat1 $stat2 $stat3 $stat4 $stat5 $stat6 $stat7 $stat8)
  gpu_available=0
  gpu_available_index_arr=()
  # 得到空闲GPU的数量和对应的序号
  for i in ${!stat_arr[@]}
  do
     # 如果显存占用小于阈值(单位M),继续
    if [ "${stat_arr[$i]}" -lt 10000 ]
    then
      gpu_available=$[gpu_available+1]
      gpu_available_index_arr[${#gpu_available_index_arr[@]}]=$i
    fi
  done
  echo '-可用GPU数:'$gpu_available', 第'${gpu_available_index_arr[@]}'块GPU可用'
  # 如果GPU数大于指定数量,取指定数量GPU开始训练
  if [ $gpu_available -ge 2 ]
  then
    echo 'start running the code...'
    # 传值操作,即需要运行的代码脚本
    sh ./train_run.sh ${gpu_available_index_arr[0]} ${gpu_available_index_arr[1]}
    break # 防止下一次循环又重复运行上一行命令
  fi
  sleep 30 # 单位秒
done

运行命令bash gpu_monitor.sh

2.4定时启动脚本

time_run.sh是定时启动脚本

#!/bin/bash
# 2022年9月25日1点0分0秒 阈值时间
date="20220925-010000"

while true
do
 now="$(date "+%Y%m%d-%H%M%S")"
 echo '当前时间:' $now
 if [[ $date > $now ]]; then
    echo "$date > $now"
 elif [[ $date -eq $now ]]; then
    echo "$date == $now"
 else
    echo "$date < $now"
    # 执行GPU监控脚本
    bash gpu_monitor.sh
    break
 fi
 sleep 30
done

参考资料

  1. 【Linux shell命令】实验室监控空闲GPU,及时运行python代码程序
  2. shell中 -eq,-ne,-gt,-lt,-ge,-le数字比较符

您可能感兴趣的与本文相关的镜像

Python3.10

Python3.10

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

<think>好的,用户问的是Linux系统是否支持4090并行。首先,我需要确认这个问题的核心点。用户可能是在搭建深度学习或者高性能计算的环境,需要用到张RTX 4090显卡进行并行计算。 首先,我应该回顾一下RTX 4090的规格。RTX 4090是消费级显卡,属于GeForce系列,通常用于单机Linux系统对NVIDIA显卡的支持相对较好,尤其是通过NVIDIA的驱动和CUDA工具链。 接下来要考虑的是并行的技术细节。NVIDIA的CUDA支持GPU并行,通常通过NVLink或者PCIe进行通信。但RTX 4090作为消费级显卡,可能没有NVLink桥接器,所以之间的通信只能通过PCIe总线,这可能会影响性能。 然后需要确认Linux下的驱动是否支持。NVIDIA的驱动在Linux上可以通过安装官方的驱动程序来支持显卡。用户可能需要安装NVIDIA的驱动和CUDA Toolkit,并且配置好环境变量。此外,像TensorFlow或PyTorch这样的框架是否支持Linux下的并行也需要考虑。 还要注意Linux内核的版本和PCIe的版本,确保主板有足够的PCIe通道来支持显卡。比如,如果主板有个PCIe x16插槽,并且电源和散热足够,那么安装张4090是可行的。 另外,可能需要提到一些实际使用中的注意事项,比如电源功率、散热解决方案、以及可能的驱动兼容性问题。例如,某些情况下需要安装特定版本的驱动或者调整BIOS设置以启用支持。 然后,用户可能想知道具体的配置步骤,比如如何安装驱动、如何验证是否被正确识别,以及如何配置深度学习框架使用。这时候可以给出一些命令示例,比如使用nvidia-smi查看显卡状态,或者使用CUDA的设备查询代码来确认。 最后,总结一下,Linux系统确实支持RTX 4090的并行,但需要注意硬件兼容性、驱动配置以及软件框架的支持情况。同时,提醒用户注意散热和电源管理,确保系统稳定运行。 </think>Linux系统完全支持RTX 4090并行计算,但需注意以下关键点: 1. **硬件兼容性**: - 需使用支持GPU的主板(如PCIe 5.0 x16插槽≥2个) - 电源需满足每张4090 450W+的供电需求(建议1600W金牌全模组) - 推荐使用PCIe 5.0直连拓扑(NVLink未在4090消费上启用) 2. **驱动配置**: ```bash # 安装最新NVIDIA驱动(需535以上版本) sudo apt install nvidia-driver-535 nvidia-cuda-toolkit # 验证识别 nvidia-smi -q -d POWER,DISPLAY ``` 3. **性能优化**: ```bash # 设置持久模式提升切换效率 sudo nvidia-smi -pm 1 # 启用Compute模式(非WDDM) sudo nvidia-smi -dm 0 ``` 4. **框架配置示例(PyTorch)**: ```python import torch # 自动识别所有GPU device_ids = list(range(torch.cuda.device_count())) model = torch.nn.DataParallel(model, device_ids=device_ids) ```
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值