第一种 DataParallel分布式训练的使用
这种是最简单的使用方法,只需要几行代码就能使用,不过这种比较低效,这种分布式的使用原理就是先将所有的数据记载到主卡比如编号为0的GPU,然后训练的时候,由0卡将数据平均分发给其余的GPU同时也复制一份model,在反向传递的时候,每个GPU计算的梯度会累积加载到0卡的GPU上,然后更新好的权重再分发给其余的GPU,因此0卡所占用的显存会比其他卡多。缺点是:会造成负载不均衡的情况,成为限制模型训练速度的瓶颈。
1.使用分布式GPU直接训练自己的model
直接在使用模型的时候调用
首先创建你的Model
然后将model使用DataParallel调用你的多个GPU,这里device_ids参数写你的GPU编号,模型在训练的时候,就会相应的调用这几个GPU,然后再把模型放到device上
model = Model()
model=torch.nn.DataParallel(model,device_ids=[0,1,2])
model.to(device)
2.导入预训练模型权重迁移学习训练自己的model
同样的先同上1操作,使用DataParallel调用多GPU
然后再导入预训练模型权重的时候需要注意导入的模型权重是单GPU保存的还是多GPU保存的,在使用DataParallel时,预训练模型权重参数都是module.head.weight的形势,就是说每个参数前面需要有module.
多GPU保存的模型权重导入,自己也是多GPU训练
默认多GPU保存的模型权重的每个参数会比单GPU模型权重参数多一个module.,所以不需要直接处理,可以直接导入
model = Model(num_classes=args.num_classes)
model=torch.nn.DataParallel(model,device_ids=[0,1,2])
model.to(device)
# 导入模型权重
weights_dict = torch.load(args.weights, map_location=device)
# 如果需要删除部分不需要的权重参数
# 删除不需要的权重
del_keys = ['module.head.weight', 'module.head.bias']
for k in del_keys:
del weights_dict[k]
model.load_state_dict(weights_dict, strict=False)
这里的args.weights是预训练模型权重的路径
后续的使用就是一样的使用model了