Pytorch多卡训练后的模型在使用过程中的一些坑

最新推荐文章于 2025-01-21 15:34:42 发布

奋斗的沐沐

最新推荐文章于 2025-01-21 15:34:42 发布

阅读量563

点赞数

CC 4.0 BY-SA版权

文章标签： pytorch 深度学习

本文链接：https://blog.youkuaiyun.com/qq_39474168/article/details/120703461

本文探讨在PyTorch中利用多GPU环境进行模型训练，如何通过DataParallel实现并行计算loss的求平均，以及在模型保存和加载时的注意事项。特别介绍了针对DataParallel模型的保存策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

if torch.cuda.device_count() > 1:
     print("Let's use", torch.cuda.device_count(), "GPUs!")
     model = torch.nn.DataParallel(model)

多GPU环境计算loss

解决方法：
将多卡得到的loss进行mean，求平均：

loss_avg.backward()  -----> loss_avg.mean().backward()

多GPU环境下对模型的保存：

#万能的保存方法，如果你的预测函数不会依赖你的模型类定义。
if isinstance(model, torch.nn.DataParallel):
torch.save(model.module.state_dict(), config.save_path)
#依赖你的模型定义，这么保存只保存了你模型的参数，模型的结构没有保存，所以尽量用上面的保存方法。
if isinstance(model, torch.nn.DataParallel):
torch.save(model.state_dict(), config.save_path)