PyTorch多GPU训练时同步梯度是mean还是sum?

最新推荐文章于 2025-09-20 07:03:46 发布

原创

最新推荐文章于 2025-09-20 07:03:46 发布 · 4.9k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pytorch #深度学习 #人工智能

PyTorch 通过两种方式可以进行多GPU训练: DataParallel, DistributedDataParallel. 当使用DataParallel的时候, 梯度的计算结果和在单卡上跑是一样的, 对每个数据计算出来的梯度进行累加. 当使用DistributedDataParallel的时候, 每个卡单独计算梯度, 然后多卡的梯度再进行平均.
下面是实验验证:

DataParallel

import torch
import os
import torch.nn as nn

def main():
    model = nn.Linear(2, 3).cuda()
    model = torch.nn.DataParallel(model, device_ids=[0, 1])
    input = torch.rand(2, 2)
    labels = torch.tensor([[1, 0, 0], [0, 1, 0]]).cuda()
    (model(input) * labels).sum().backward()
    print('input', input)
    print([p.grad for p in model.parameters()])


if __name__=="__main__":
    main()

执行CUDA_VISIBLE_DEVICES=0,1 python t.py可以看到输出, 代码中对两个样本分别求梯度, 梯度等于样本的值, DataParallel把两个样本的梯度累加起来在不同GPU中同步.

input tensor([[0.4362, 0.4574],
        [0.2052, 0.2362]])
[tensor([[0.4363, 0.4573],
        [0.2052, 0.2362],

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

月夜长影

关注关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

PyTorch入门学习 9-梯度计算1

04-29

520

梯度，我们先简单认为就是函数的导数比如 y=x*2，y'=2*x代入x1 = 3，则此时梯度为 6。

第八章梯度一致算法

王小波的博客

09-10

1374

这一章我们将学习如何将梯度一致作为元学习的优化目标。正如在MAML中看到的，我们对任务间的梯度进行平均，并更新模型参数。在梯度一致算法中，我们将使用梯度的加权平均来更新模型参数，并学习如何向梯度添加权重来找到更好的模型参数。梯度一致，一种优化算法梯度一致算法用于增强元学习算法，在MAML和Reptile中，我们试图找到更好的、可在多个相关任务间泛化的模型参数，这样就可以用更少的数据点快速学习。如何把权重和梯度联系起来，能够体现不同梯度一致的重要性？因此，我们通过添加与每个梯度相乘的权重，重写了外

1 条评论您还未登录，请先登录后发表或查看评论

分布式Tensorflow中同步梯度更新tf.train.SyncReplicasOptimizer解读（backup_worker的用法）

懒骨头707

12-14

5189

在tensorflow的训练中，分布式可以大大的加快模型训练速度，但是分布式怎么分配和参数设定，都和SyncReplicasOptimizer这个函数有很大关系。操作系统：Ubuntu16.04 运行环境：python3.6,nvidia384(4块)，tensorflow-gpu1.10+cuda+cudnn(根据自己实际gpu配置) ...

gpt-fast中的分布式通信：all_reduce与梯度同步实现

热门推荐

不忘初心不动摇

02-28

8万+

这里记录用pytorch 多GPU训练踩过的许多坑仅针对单服务器多gpu 数据并行而不是多机器分布式训练一、官方思路包装模型这是pytorch 官方的原理图按照这个官方的原理图修改应该参照 https://blog.youkuaiyun.com/qq_19598705/article/details/80396325 上文也用dataParallel 包装了optimize...

使用Pytorch进行多卡训练

https://www.cnblogs.com/qizhou/

10-12

5285

　　当一块GPU不够用时，我们就需要使用多卡进行并行训练。其中多卡并行可分为数据并行和模型并行。具体区别如下图所示：　　由于模型并行比较少用，这里只对数据并行进行记录。对于pytorch，有两种方式可以进行数据并行：数据并行(DataParallel, DP)和分布式数据并行(DistributedDataParallel, DDP)。　　在多卡训练的实现上，DP与DDP的思路是相似的： ...

pytorch求梯度， MSE损失函数用sum和mean的区别

h1m2q3的博客

04-26

5665

pytorch求梯度， MSE损失函数用sum和mean的区别 1. z.mean()取均值操作，梯度计算如下 import torch x = torch.ones(2, 2, requires_grad=True) print(x) # tensor([[1., 1.], # [1., 1.]], requires_grad=True) y = x + 2 print(y) # tensor([[3., 3.], # [3., 3.]], grad_fn=<.

【计算系统】分布式训练：DDP单机多卡并行实战

小哲的博客

11-07

3384

分布式训练是一种模型训练范式，涉及在多个工作节点上分散训练工作量，从而显著提高训练速度和模型准确性。虽然分布式训练可以用于任何类型的ML模型训练，但将其用于大型模型和计算要求高的任务（如深度学习）是最有益的。

Pytorch 多卡训练原理与实现

qq_40676033的博客

09-07

3621

文章目录Pytorch 多卡训练一、多卡训练原理二、单机多卡训练三、多机多卡训练后端初始化初始化init_method初始化rank和world_size四、模型保存参考链接 Pytorch 多卡训练一、多卡训练原理多卡训练流程一般如下：指定主机节点主机节点划分数据，一个batch数据平均分到每个机器上模型从主机拷贝到各个机器每个机器进行前向传播每个机器计算loss损失主机收集所有loss结果，进行参数更新将更新后参数模型拷贝给各个机器二、单机多卡训练使用torch.nn.Da

【NLP高频面题 - 分布式训练篇】PS架构是如何进行梯度同步和更新的？

一个程序猿的AI转型之路

01-08

1232

重要性：★★ 参数服务器需要提供充足内存资源和通信资源，训练服务器需要提供大量的计算资源。参数服务器模式示例：假设有一个可分为两个参数分区的模型，每个分区由一个参数服务器负责进行参数同步。在训练过程中，每个训练服务器都拥有完整的模型，并根据将分配到此服务器的训练数据集切片（Dataset Shard）进行计算，将得的梯度推送到相应的参数服务器。参数服务器会等待两个训练服务器都完成梯度推送，然后开始计算平均梯度，并更新参数。之后，参数服务器会通知训练服务器拉取最新的参数，并开始下一轮训练迭代。

pytorch: 学习笔记3, pytorch求梯度

qq757056521的博客

07-26

1087

pytorch求梯度 1, tensor中有 requires_grad 属性，当设置 requires_grad 为True，则会追踪(track)对tonsor的所有操作，之后就可以(利用链式法)调用.backward()来完成所有梯度计算。 requires_grad ①可以在创建tensor时，通过参数设置为True/False；②或者通过 .requires_grad_(True/False)设置 2, 每个Tensor都有一个 .grad_fn 属性，该属性表示此Tensor是不是通过某些运算得

accelerate 笔记：梯度同步的时间效率

qq_40206371的博客

06-05

1240

先直观看一下不进行任何改进的话，每个batch都进行通信，会是什么样的速度：

聊一聊深度学习分布式训练

Kaiyuan_sjtu的博客

06-01

1359

作者|杨阳整理|NewBeeNLPhttps://zhuanlan.zhihu.com/p/365662727在深度学习时代，训练数据特别大的时候想要单卡完成训练基本是不可能的。所以就需要进行分布式深度学习。在此总结下个人近期的研究成果，欢迎大佬指正。主要从以下几个方面进行总结：分布式训练的基本原理TensorFlow的分布式训练PyTorch的分布式训练框架H...

pytorch 单卡训练代码给出多卡训练代码精度降低的原因？

03-11

<think>嗯，用户问的是PyTorch单卡训练代码改成多卡训练后精度下降的原因。首先，我需要回忆一下分布式训练中常见的问题。可能的原因有几个，比如数据并行中的BatchNorm层处理，学习率调整，参数初始化不一致，数据划分方式，或者梯度同步的问题。首先，BatchNorm在多卡情况下会分别计算每个卡上的均值和方差，这可能导致和单卡时的统计量不同，影响模型性能。然后，学习率方面，如果使用数据并行，有效批量大小增加了，可能需要调整学习率。比如，单卡batch是32，4卡的话总batch变成128，学习率可能需要线性缩放，但用户可能没调整，导致收敛不同。参数初始化也可能有问题，如果模型在初始化时没有保证各卡参数一致，比如某些层在初始化时有随机性，但主卡和其他卡参数不同步的话，会影响训练结果。另外，数据划分是否均匀，如果数据分布不均匀，或者shuffle方式不同，也会导致训练差异。还有梯度同步，多卡训练时梯度是平均还是求和？PyTorch的DataParallel是平均梯度，而DistributedDataParallel是求和，这里如果处理不当，可能会影响参数更新，进而影响精度。此外，随机数种子的设置，如果在多卡中没有同步随机种子，比如数据增强的随机性不同，导致每卡看到的数据增强不一致，也会引入差异。另外，可能还有一些细节，比如混合精度训练时，如果开启FP16，但没正确处理梯度缩放，或者某些操作在FP16下不稳定，导致数值误差累积。或者是多卡通信中的瓶颈，导致某些梯度同步不及时，参数更新有延迟。用户可能没有正确使用DistributedDataParallel，或者DataParallel在某些情况下效率不高，导致梯度同步的问题。另外，多卡训练时，验证过程是否只在主卡上进行，如果验证时没有汇总所有卡的数据，可能会影响评估指标，但用户的问题是关于训练精度的，所以可能更多是在训练过程中出现的问题。总结下来，可能的原因包括：BatchNorm统计量、学习率未调整、参数初始化不一致、数据划分或shuffle问题、梯度同步方式、随机种子不同步、混合精度处理不当等。需要逐一检查这些方面，给出解决方案。</think>PyTorch单卡训练代码改为多卡训练时精度下降的常见原因及解决方法如下： --- ### 一、BatchNorm层统计量差异 #### 现象 - 单卡BatchNorm计算的是单卡数据的均值和方差 - **多卡数据并行时，默认每个GPU独立计算BatchNorm统计量**，导致与单卡统计分布不一致 #### 解决方法 ```python # 使用SyncBatchNorm（需DistributedDataParallel） model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model) model = DDP(model, device_ids=[local_rank]) ``` --- ### 二、学习率与批量大小的适配 #### 现象 - 多卡训练时总批量大小变为 `batch_size * num_gpus` - **未按线性缩放规则调整学习率**，导致优化轨迹不同 #### 调整公式 $$\text{新学习率} = \text{原学习率} \times \frac{\text{总批量大小}}{\text{单卡批量大小}}$$ #### 代码示例 ```python base_lr = 0.1 effective_batch_size = batch_size * world_size optimizer = torch.optim.SGD(model.parameters(), lr=base_lr * effective_batch_size) ``` --- ### 三、随机数种子同步 #### 现象 - 多卡未同步随机种子时，**数据增强、参数初始化等随机操作不一致** #### 解决方法 ```python def set_seed(seed): torch.manual_seed(seed) np.random.seed(seed) random.seed(seed) torch.cuda.manual_seed_all(seed) # 分布式训练初始化时同步种子 if args.distributed: seed = 42 # 主进程设置 set_seed(seed) torch.distributed.broadcast(torch.tensor([seed]), src=0) # 广播到所有进程 ``` --- ### 四、梯度聚合方式差异 #### 现象 - DataParallel默认对梯度取平均 - **当各卡数据分布差异大时，梯度方向可能被弱化** #### 验证方法 ```python # 检查梯度是否同步 with torch.no_grad(): for p in model.parameters(): if p.grad is not None: print(f"梯度均值: {p.grad.mean().item()}, 方差: {p.grad.var().item()}") ``` --- ### 五、数据划分不一致 #### 现象 - 单卡加载全部数据，多卡使用DistributedSampler时 - **数据shuffle未正确同步导致epoch间数据分布变化** #### 正确配置 ```python from torch.utils.data.distributed import DistributedSampler train_sampler = DistributedSampler( dataset, num_replicas=world_size, rank=rank, shuffle=True, seed=42 # 必须设置统一随机种子 ) dataloader = DataLoader(dataset, sampler=train_sampler) ``` --- ### 六、验证指标计算方式 #### 现象 - 多卡验证时直接在各个GPU上计算指标 - **未使用all_reduce同步会导致指标计算错误** #### 正确实现 ```python def reduce_tensor(tensor): rt = tensor.clone() torch.distributed.all_reduce(rt, op=torch.distributed.ReduceOp.SUM) rt /= torch.distributed.get_world_size() return rt acc = calculate_accuracy(...) acc = reduce_tensor(acc) ``` --- ### 总结排查步骤 1. **检查BatchNorm实现**：是否转换为SyncBatchNorm 2. **验证学习率策略**：总批量大小是否适配 3. **确保随机一致性**：种子同步、数据划分 4. **监控梯度分布**：比较单卡与多卡的梯度统计量 5. **验证指标同步**：使用all_reduce聚合结果通过上述方法系统性排查，通常可以解决90%以上的多卡训练精度下降问题。实际调试时可逐步开启多卡功能（如先禁用BatchNorm同步），通过控制变量定位问题根源。