多GPU训练报错：at least two devices cuda:1 and cuda:0；Caught ValueError in replica 0 on device 0

xiangyong58

已于 2023-04-27 15:12:27 修改

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Machine & Deep Learning 文章标签： pytorch 深度学习 python 神经网络

于 2023-04-26 13:06:39 首次发布

本文链接：https://blog.youkuaiyun.com/xiangyong58/article/details/130334161

Machine & Deep Learning 专栏收录该内容

78 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

在使用PyTorch的DataParallel进行多GPU训练时，遇到'at least two devices cuda:1 and cuda:0'错误。错误源于自定义参数与nn.module模型参数在不同GPU上导致的设备不匹配。解决方案包括切换到DistributedDataParallel模式，以及避免在main函数中定义全局变量，确保所有GPU能访问到所需资源。

多GPU训练at least two devices cuda:1 and cuda:0

详细报错信息如下：

File "/.../site-packages/torch/nn/parallel/data_parallel.py", line 168, in forward outputs = self.parallel_apply(replicas, inputs, kwargs)
File "/.../site-packages/torch/nn/parallel/data_parallel