使用DataParallel和DistributedDataParallel的两种多GPU分布式训练方法包含加载单GPU和多GPU保存的预训练模型权重的迁移学习

本文介绍了在PyTorch中使用DataParallel和DistributedDataParallel进行分布式训练的方法,包括其原理、代码示例以及注意事项,特别是关于模型权重迁移学习时的处理策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一种 DataParallel分布式训练的使用

这种是最简单的使用方法,只需要几行代码就能使用,不过这种比较低效,这种分布式的使用原理就是先将所有的数据记载到主卡比如编号为0的GPU,然后训练的时候,由0卡将数据平均分发给其余的GPU同时也复制一份model,在反向传递的时候,每个GPU计算的梯度会累积加载到0卡的GPU上,然后更新好的权重再分发给其余的GPU,因此0卡所占用的显存会比其他卡多。缺点是:会造成负载不均衡的情况,成为限制模型训练速度的瓶颈。

1.使用分布式GPU直接训练自己的model

直接在使用模型的时候调用
首先创建你的Model
然后将model使用DataParallel调用你的多个GPU,这里device_ids参数写你的GPU编号,模型在训练的时候,就会相应的调用这几个GPU,然后再把模型放到device上

model = Model()
model=torch.nn.DataParallel(model,device_ids=[0,1,2])
model.to(device)
2.导入预训练模型权重迁移学习训练自己的model

同样的先同上1操作,使用DataParallel调用多GPU
然后再导入预训练模型权重的时候需要注意导入的模型权重是单GPU保存的还是多GPU保存的,在使用DataParallel时,预训练模型权重参数都是module.head.weight的形势,就是说每个参数前面需要有module.

多GPU保存的模型权重导入,自己也是多GPU训练

默认多GPU保存的模型权重的每个参数会比单GPU模型权重参数多一个module.,所以不需要直接处理,可以直接导入

model = Model(num_classes=args.num_classes)
model=torch.nn.DataParallel(model,device_ids=[0,1,2])
model.to(device)
# 导入模型权重
weights_dict = torch.load(args.weights, map_location=device)
# 如果需要删除部分不需要的权重参数
# 删除不需要的权重
del_keys = ['module.head.weight', 'module.head.bias']
for k in del_keys:
    del weights_dict[k]
model.load_state_dict(weights_dict, strict=False)

这里的args.weights是预训练模型权重的路径
后续的使用就是一样的使用model了

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

leigm123

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值