多GPU训练报错:at least two devices cuda:1 and cuda:0;Caught ValueError in replica 0 on device 0
于 2023-04-26 13:06:39 首次发布
在使用PyTorch的DataParallel进行多GPU训练时,遇到'at least two devices cuda:1 and cuda:0'错误。错误源于自定义参数与nn.module模型参数在不同GPU上导致的设备不匹配。解决方案包括切换到DistributedDataParallel模式,以及避免在main函数中定义全局变量,确保所有GPU能访问到所需资源。
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



