使用DataParallel和DistributedDataParallel的两种多GPU分布式训练方法包含加载单GPU和多GPU保存的预训练模型权重的迁移学习

原创

已于 2023-12-22 12:16:44 修改 · 956 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#分布式

于 2023-09-15 15:21:55 首次发布

本文介绍了在PyTorch中使用DataParallel和DistributedDataParallel进行分布式训练的方法，包括其原理、代码示例以及注意事项，特别是关于模型权重迁移学习时的处理策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一种 DataParallel分布式训练的使用

这种是最简单的使用方法，只需要几行代码就能使用，不过这种比较低效，这种分布式的使用原理就是先将所有的数据记载到主卡比如编号为0的GPU，然后训练的时候，由0卡将数据平均分发给其余的GPU同时也复制一份model，在反向传递的时候，每个GPU计算的梯度会累积加载到0卡的GPU上，然后更新好的权重再分发给其余的GPU，因此0卡所占用的显存会比其他卡多。缺点是：会造成负载不均衡的情况，成为限制模型训练速度的瓶颈。

1.使用分布式GPU直接训练自己的model

直接在使用模型的时候调用
首先创建你的Model
然后将model使用DataParallel调用你的多个GPU，这里device_ids参数写你的GPU编号，模型在训练的时候，就会相应的调用这几个GPU，然后再把模型放到device上

model = Model()
model=torch.nn.DataParallel(model,device_ids=[0,1,2])
model.to(device)

2.导入预训练模型权重迁移学习训练自己的model

同样的先同上1操作，使用DataParallel调用多GPU
然后再导入预训练模型权重的时候需要注意导入的模型权重是单GPU保存的还是多GPU保存的，在使用DataParallel时，预训练模型权重参数都是module.head.weight的形势，就是说每个参数前面需要有module.

多GPU保存的模型权重导入，自己也是多GPU训练

默认多GPU保存的模型权重的每个参数会比单GPU模型权重参数多一个module.，所以不需要直接处理，可以直接导入

model = Model(num_classes=args.num_classes)
model=torch.nn.DataParallel(model,device_ids=[0,1,2])
model.to(device)
# 导入模型权重
weights_dict = torch.load(args.weights, map_location=device)
# 如果需要删除部分不需要的权重参数
# 删除不需要的权重
del_keys = ['module.head.weight', 'module.head.bias']
for k in del_keys:
    del weights_dict[k]
model.load_state_dict(weights_dict, strict=False)