实验室GPU编号在pytorch和nvidia-smi中不一致引起的NCCL的分布式训练bug

最新推荐文章于 2025-02-15 13:21:43 发布

JackHu-bme

最新推荐文章于 2025-02-15 13:21:43 发布

阅读量9.1k

点赞数 4

文章标签： pytorch bug 深度学习

本文链接：https://blog.youkuaiyun.com/JackHu12345/article/details/131065991

版权

这是一个很逆天的bug，底层逻辑暂时没有想清楚，bug与解决方法报道如下：

（1）关于实验室GPU编号在pytorch和nvidia-smi中不一致的问题

参考链接：不一致的GPU编号

整体上两个核心：1）原因：nvidia-smi 下的 GPU 编号默认使用 PCI_BUS_ID，而 PyTorch 代码默认情况下设备排序是 FASTEST_FIRST

2）解决办法：

export CUDA_DEVICE_ORDER="PCI_BUS_ID"

（2）关于引起的bug与可能的原因：

【bug的报错信息】

NCCL error

RuntimeError: NCCL error in: /opt/conda/conda-bld/pytorch_1667808731763/work/torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1272, internal error, NCCL version 2.14.3
ncclInternalError: Internal check failed.
Last error:
Duplicate GPU detected : rank 1 and rank 0 both on CUDA device 4000

pytorch lightning上面错误的行

就在trainer.fit函数里面，会有一个self.consigure_ddp()函数里面还是python的包括，再往底层就是上面的这个nccl error了

【相关的资料】

（1）运用的是pytorch_lightning相关的库，相关讨论见lighting的github上的issue

可以看到，有包括pytorch版本问题，读取的world size等问题，解决方法包括环境变量等等

（2）在多卡环境下指定某几张卡的时候，会产生指定的错误

指定特定GPU

【额外的补充信息】

（1）前两天在超算系统上申请两块V100进行训练的时候，完全可以跑的通没有这样的错误

【解决过程】

（1）可能是pytorch版本问题，但是我升级到2.0.1之后还是不行

（2）可能是环境变量问题，如lighting的github上的issue，但是加上了哪些关于卡间通讯什么的变量，都没有效果