解决多卡加载预训练模型时,卡0总会比其他卡多占用显存,多卡占用显存不均

在使用PyTorch进行多GPU训练时,遇到模型加载导致显存分配不均和进程数差异的问题。通过在`torch.load()`函数中添加`map_location='cpu'`参数未能完全解决问题。进一步调查发现,网络类内部的初始化权重函数也可能包含加载操作,需同样添加该参数。检查并修正所有潜在的加载函数,确保所有GPU资源使用一致,以避免训练过程中的显存占用不均和进程异常。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

出现问题:

再跑stdc官方给出代码时,使用多卡加载pretrained模型时,卡0上比卡123多三个进程,卡123都只有一个进程,中断训练后卡0全部进程都中断。即卡0在正常训练时比卡123多占用显存。(使用nvidia-smi命令查看)

这里发现问题存在于load模型的时候,直接load的话会导致参数加载到之前保存模型的device上(大部分情况下应该是只用cuda0去保存),这里可以将load函数加一个参数为map_location解决:

model_weights = torch.load(path, map_location='cpu')

改完之后发现仍旧存在这个问题

后来查看代码的时候发现,在网络的class内部,init_weight的时候也有一个load函数。这个函数内部无map_location参数。

因此,加入这个参数后如果卡0仍旧多占用显存和进程的时候,可能是某个隐藏的类别内部存在torch.load函数。多找找加上map_location参数即可使得全部的卡占用相同显存。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值