Pytorch一些小问题记录_pytorch 挂载盘-优快云博客

本文链接：https://blog.youkuaiyun.com/Exploer_TRY/article/details/113750603

本文介绍了如何在单机多卡环境下训练深度学习模型，包括设置CUDA_VISIBLE_DEVICES选择使用显卡，使用nn.DataParallel进行多GPU训练。同时，详细阐述了如何从单卡训练模型加载到多卡环境，关键步骤是移除state_dict中的`module.`前缀。此外，还提到了临时和永久挂载硬盘的方法，以及通过ssh-copy-id实现SSH免密登录的配置过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 单机多卡与单卡加载多卡问题

训练单机多卡模型，很容易，先定义需要使用的显卡编号：

import os
os.environ["CUDA_VISIBLE_DEVICES"] = args.gpu_device	# such as [0,2,3]

加载模型：

# GPU
if torch.cuda.is_available():
    model = model.cuda()
    # Multi GPU
    if torch.cuda.device_count() > 1:
        model = nn.DataParallel(model)

然后就是模型加载，加载时候如果希望单卡加载多卡训练的模型，这里说的是保存时候保存了整个模型的参数，包括图结构与数据：

model = torch.load(weight_path).module
pretrain = model.state_dict()
new_state_dict = {}#OrderedDict()
for k,v in pretrain.items():
    new_state_dict[k] = v  #remove `module.`  #模型k 有module 不要
model.load_state_dict(new_state_dict, strict=True)  #strict =False ,模型参数和模型不一致可以加载
print("Model parameters: " + weight_path + " has been load!")