PyTorch错误解决方案及技巧RuntimeError: Attempting to deserialize object on CUDA device 2 but torch.cuda.devic

最新推荐文章于 2025-05-28 17:07:15 发布

CVAIDL

最新推荐文章于 2025-05-28 17:07:15 发布

阅读量3.9w

点赞数 31

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/CVAIDL/article/details/105331886

本文详细解析了PyTorch在GPU环境下常见的错误及其解决方法，包括模型加载失败、多GPU处理机制、内存迁移区别等关键问题，并提供了实用的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PyTorch错误解决方案及技巧

- 报错：RuntimeError: Attempting to deserialize object on CUDA device 2 but torch.cuda.device_count() is 1
- 原因：在使用Pytorch加载模型时报错。加载的模型是用两个GPU训练的，而加载模型的电脑只有一个GPU，所以会出错。
- 解决：model = torch.load(model_path)
  改为：model = torch.load(model_path, map_location='cuda:0')
  如果是4块到2块：就把map_location改为：map_location={'cuda:1': 'cuda:0'}
PyTorch多GPU的处理机制
使用多GPU时，应该记住pytorch的处理逻辑是：

1.在各个GPU上初始化模型。
2.前向传播时，把batch分配到各个GPU上进行计算。
3.得到的输出在主GPU上进行汇总，计算loss并反向传播，更新主GPU上的权值。
4.把主GPU上的模型复制到其它GPU上。

nn.Module.cuda() 和 Tensor.cuda() 的作用效果的区别
无论是对于模型还是数据，cuda()函数都能实现从CPU到GPU的内存迁移，但是他们的作用效果有所不同。
- 对于nn.Module：

model = model.cuda() 

model.cuda()

上面两句能够达到一样的效果，即对model自身进行内存迁移。

- 对于Tensor：

和nn.Module不同，调用tensor.cuda()只是返回这个tensor对象在GPU内存上的拷贝，而不会对自身进行改变。因此必须对tensor进行重新赋值，即tensor=tensor.cuda().

RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is Fal
展开
遇到一个错误：

RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location='cpu' to map your storages to the CPU.
出错语句：

torch.load(model_file)
改为：

model = torch.load(model_path, map_location='cpu')

多个ＧＰＵ训练的，参考：

＜https://blog.youkuaiyun.com/iamjingong/article/details/85308600＞

torch.cuda.is_available()返回false的解决办法

展开
在使用pytorch的时候，有时会遇到torch.cuda.is_available()返回false的问题，一般出现这个的原因是因为驱动没有安装好的缘故。解决的方案是：

1、安装nvidia相应的驱动版本和对应的cuda和cudnn。

sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt update
sudo apt install nvidia-396

#开发使用
sudo apt install nvidia-396-dev
有时会碰到nvidia-396找不到的情况，使用

sudo apt search nvidia
后发现库中没有nvidia-396的版本，这时可以安装nvidia-384的版本

sudo apt install nvidia-384
但是该版本似乎不支持cuda9.1，如果碰到与cuda版本不支持的问题，建议可以直接去nvidia官方网站下载驱动进行安装。

https://www.nvidia.cn/Download/index.aspx?lang=cn

cuda和cudnn可以直接使用conda进行安装, 如果遇到问题，可以查阅相关的文档，这里就不赘述了。

conda install cudatoolkit
2、安装nvidia-cuda-toolkit方便使用nvcc

sudo apt-get install nvidia-cuda-toolkit
如果碰到nvcc -V 显示的版本与系统实际安装的版本不同的问题，可以参见

https://zhuanlan.zhihu.com/p/48641682

一般进行驱动的正确安装后，就可以使用gpu进行计算了。

将gpu改为cpu时，遇到一个报错：

此时改为：

torch.load("0.9472_0048.weights",map_location='cpu')

就可以解决问题了。

方便查阅，整理：

假设我们只保存了模型的参数(model.state_dict())到文件名为modelparameters.pth, model = Net()

1. cpu -> cpu或者gpu -> gpu:

checkpoint = torch.load('modelparameters.pth')

model.load_state_dict(checkpoint)

2. cpu -> gpu 1

torch.load('modelparameters.pth', map_location=lambda storage, loc: storage.cuda(1))

3. gpu 1 -> gpu 0

torch.load('modelparameters.pth', map_location={'cuda:1':'cuda:0'})

4. gpu -> cpu

torch.load('modelparameters.pth', map_location=lambda storage, loc: storage)

- 报错：RuntimeError: Attempting to deserialize object on CUDA device 2 but torch.cuda.device_count() is 1
- 原因：在使用Pytorch加载模型时报错。加载的模型是用两个GPU训练的，而加载模型的电脑只有一个GPU，所以会出错。
- 解决：model = torch.load(model_path)
  改为：model = torch.load(model_path, map_location='cuda:0')
  如果是4块到2块：就把map_location改为：map_location={'cuda:1': 'cuda:0'}
PyTorch多GPU的处理机制
使用多GPU时，应该记住pytorch的处理逻辑是：