https://github.com/wilicc/gpu-burn/archive/refs/heads/master.zip
https://codeload.github.com/wilicc/gpu-burn/zip/master
wget https://github.com/wilicc/gpu-burn/archive/refs/heads/master.zip
wget https://codeload.github.com/wilicc/gpu-burn/zip/master
unzip gpu-burn-master.zip #解压缩
cd gpu-burn-master #进行目录编译(确保cuda环境变量已经配置成功nvcc -v能显示结果)
make
gpu_burn #编译成功后,会在当前目录生成gpu_burn这个文件
cuda下载链接,在官网选择你显卡驱动对应的版本
https://developer.nvidia.com/cuda-downloads
注意,没有安装cuda,是编译不成功的
#下载cuda:
wget https://developer.download.nvidia.com/compute/cuda/12.4.1/local_installers/cuda_12.4.1_550.54.15_linux.run
#在下载的目录,给执行权限,并安装
chmod +x cuda_12.4.1_550.54.15_linux.run
./cuda_12.4.1_550.54.15_linux.run
#如果没安装驱动可以在cuda安装时勾选上,有安装取消就行
#默认执行,跑全部GPU卡,空格后面参数为时间,一般快速测试设置100,稳定性测试为500
./gpu_burn 100
#指定某几张卡跑,比如指定0和1号卡
export CUDA_VISIBLE_DEVICES=0,1
./gpu_burn 100
#找出故障卡
dmesg -l err 筛选出错误卡的Bus-Id
#根据Bus-Id找出对应的GPU卡编号,在跑测试的时候排除它,比如机器8张卡,device 2 故障,那个参数这 样写:
export CUDA_VISIBLE_DEVICES=0,1,3,4,5,6,7 #2不写在里面
./gpu_burn 100
# 跑完之后关机,找出那张没有温度的卡,即故障卡
测试过程中,并行开窗口观察频率,因为GPU如果温度达到门限,会降频保护,性能就会下降
可以通过命令nvidia-smi dmon -s pucvmet观察这项数值,如果降到一半左右,表示降频了。
可以用nvidia-smi dmon -s pucvmet | tee monitor.log
以上仅供参考,更新不定时,未回复就是在加班给各位大佬们装机器
显卡均有货(完成老板的任务罢了--只想摸鱼)