pytorch DistributedDataParallel多卡并行训练

最新推荐文章于 2025-06-15 11:27:09 发布

orientliu96

最新推荐文章于 2025-06-15 11:27:09 发布

阅读量7.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： pytorch 文章标签： python 深度学习

本文链接：https://blog.youkuaiyun.com/Orientliu96/article/details/104596429

pytorch DistributedDataParallel多卡并行训练

Pytorch 中最简单的并行计算方式是 nn.DataParallel。
DataParallel 使用单进程控制将模型和数据加载到多个 GPU 中，控制数据在 GPU 之间的流动，协同不同 GPU 上的模型进行并行训练。

但是DataParallel的缺点十分明显，各卡之间的负载不均衡，主卡的负载过大。运行时间大概是distributed 的四倍。
所以，下面我们介绍使用distributed 的计算方式。

先设定下local_rank，这是很重要的参数

parser = argparse.ArgumentParser()
parser.add_argument('--local_rank', default=0, type=int, help='node rank for distributed training')
args = parser.parse_args()
print(args.local_rank

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

orientliu96

关注关注

1
点赞
踩
10

收藏

觉得还不错? 一键收藏
5
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pytorch 单机多卡训练distributedDataParallel

jacke121的专栏

08-06

2784

pytorch单机多卡：从DataParallel到DistributedDataParallel 最近想做的实验比较多，于是稍微学习了一下和pytorch相关的加速方式。本人之前一直在使用DataParallel做数据并行，在今天浅浅的学了下apex之后，发现apex和DataParrallel并不兼容，由此开始了DistributedDataParallel的研究。至于在单机上DistributedDataParallel本身已经较DataParallel更优秀之类的内容，网上已经有较多详细的描述，..

pytorch一机多卡训练

杯酒和雪的博客

11-01

2397

1. 一机多卡（one matchine multi-GPU） 1.1 DataParallel DataParallel（DP）：Parameter Server模式，一张卡位reducer，实现也超级简单，一行代码。有个不能接受的缺陷是：DataParallel是基于Parameter server的算法，所有的loss都在主卡上计算，负载不均衡的问题比较严重，有时在模型较大的时候（比如be...

5 条评论您还未登录，请先登录后发表或查看评论

BYOL:使用DistributedDataParallel引导您自己的潜在（BYOL）pytorch实现

05-02

BYOL-火炬在使用DistributedDataParallel（1GPU：1Process）实现BYOL。这样就可以扩展到任何批量大小。例如，使用64 gpu时可能会产生4096个批处理大小，在FP32中每个批处理大小为64，分辨率为224x224x3（请参阅下面的FP16支持）。用法单个GPU NOTE0 ：这不会产生SOTA结果，但是对于调试非常有用。作者对SOTA使用4096+的批处理大小。注意1 ：设置你的github ssh令牌；如果您从git clone获得身份验证问题，则很可能是这样。 > git clone --recursive git+ssh://git@github.com/jramapuram/BYOL.git # DATADIR is the location of imagenet or anything that works with i

【PyTorch】多GPU并行训练DistributeDataParallel（Linux版）

qq_38253797的博客

05-08

5037

目录前言一、DataParalled和DistributeDataParallel二、多GPU训练常见启动方式三、torch.distributed.launch代码讲解3.1、main中添加了几个新的变量3.2、初始化各进程环境3.3、调整学习率3.4、在第一个进程中进行打印和保存等操作3.5、DistributedSampler3.6、BatchSampler3.7、DataLoader3.8、保证初始化权重一致3.9、SyncBatchNorm3.10、转为DDP模型3.11、DistributedS

【PyTorch】torch.nn.parallel.DistributedDataParallel (DDP)：在分布式训练中实现数据并行

热门推荐

芒果干的博客

11-19

1万+

PyTorch并行计算一、为什么要并行计算？二、基本概念三、DistributedDataParallel的使用1. multiprocessing2. distributed二者区别一些BUG和问题 nn.parallel.DistributedDataParallel 这部分是nn.DataParallel的后续，想看nn.DataParallel的点击这里为什么要用nn.parallel.DistributedDataParallel呢，首先我们看PyTorch官网对nn.DataParallel的

PyTorch DistributedDataParallel使用小结

yuanye_yuanye的博客

08-25

1887

PyTorch DistributedDataParallel使用小结最近在做一些pretrain的工作，需要用到单机多卡。PyTorch上单机多卡常用的办法是DataParallel，但是由于一些问题官方建议已经改用DistributedDataParallel，它既可以用作单机多卡也可以用作多机多卡，以下找到两个例子可以作为参考：参考一：简单使用参考二：官方的ImageNet例子这个例子中包含了如何在使用DistributedDataParallel的时候加载和保存ckeckpoint；这

Pytorch DistributedDataParallel（DDP）教程一：快速入门理论篇

weixin_42364196的博客

04-15

2733

，简明扼要地介绍一下DDP的使用，抛开繁杂的细节和原理，帮助快速上手使用（All in one blog）。篇幅较长，分为上下两篇：这篇简要介绍相关背景和理论知识，下篇详细介绍代码框架和搭建流程。

pytorch单机多卡并行

05-24

答：PyTorch 单机多卡并行的实现需要使用 DataParallel 或 DistributedDataParallel 模块。其中，DataParallel 可以在单机多卡之间进行并行处理，但是它的缺点是无法有效地利用所有卡的存储器和计算资源。而 ...

pytorch 单机多卡并行训练DistributedDataParallel示例程序

weixin_41977938的博客

08-13

1215

代码】pytorch 单机多卡并行训练DistributedDataParallel示例程序。

[pytorch] 分布式训练 Distributed Data-Parallel Training (DDP)

qq_38736504的博客

05-03

2149

[pytorch] 分布式训练 Distributed Data-Parallel Training

Pytorch中DistributedDataParallel基本使用

weixin_44762713的博客

01-03

2755

使用DistributedDataParallel进行并行训练

PyTorch多卡分布式训练：DistributedDataParallel (DDP) 简要分析

Paper weekly

11-04

4312

Pytorch 分布式训练DistributedDataParallel （1）概念篇

weixin_43229348的博客

04-14

2141

分布式训练就是指在很多台机器上（每台机器有多个GPU）进行训练，之所以使用分布式训练的原因有两种：第一、模型在一块GPU上放不下；第二、使用多块GPU进行并行计算能够加速训练。但需要注意的是随着使用的GPU数量增加，各个设备之间的通讯会越复杂，导致训练速度下降。分布式训练主要分为两种类型：数据并行（Data Parallel）和模型并行（Model Parallel）。 1.数据并行（Data Parallel）当数据量非常大，并且模型架构能够放置在单个GPU上时候，就可以采用数据并行化的方式进行分工合

DistributedDataParallel多GPU分布式训练全过程总结跟着做90%成功

qq_40564301的博客

03-23

9419

DistributedDataParallel分布式训练全教程什么是DistributedDataParallel为什么是DistributedDataParallel要不要装别的库教程一、初始化二、加一个解析参数三、数据集四、设定device五、模型加载到多gpu六、数据加载到gpu七、最后一句命令参考什么是DistributedDataParallel 一种基于pytorch框架的分布式训练工具（也就是让你用多GPU来训练）为什么是DistributedDataParallel nn.DataPar

多GPU训练：理解PyTorch中的DataParallel和DistributedDataParallel

AI天才研究院

01-23

1898

1.背景介绍在深度学习领域，多GPU训练是一项重要的技术，可以显著加快模型训练的速度。PyTorch是一个流行的深度学习框架，提供了DataParallel和DistributedDataParallel两种多GPU训练方法。在本文中，我们将深入探讨这两种方法的核心概念、算法原理和实际应用场景，并提供一些最佳实践和代码示例。 1. 背景介绍 深度学习模型的训练时间通常是计算资源的主要瓶颈。...

Pytorch分布式训练DataParallel和DistributedDataParallel详解

欢迎光临啊噗不是阿婆主的酒馆

04-18

1万+

最近工作涉及到修改分布式训练代码，以前半懂非懂，这次改的时候漏了一些细节，带来不必要的麻烦，索性花点时间搞明白。 Pytorch 分布式训练主要有两种方式： torch.nn.DataParallel ==> 简称 DP torch.nn.parallel.DistributedDataParallel ==> 简称DDP 其中 DP 只用于单机多卡，DDP 可以用于单机多卡也可用于多...

Pytorch DistributedDataParallel 多卡训练

健康工作每一天

12-28

1万+

pytorch 多卡GPU训练基础知识常用方法 torch.cuda.is_available()：判断 GPU 是否可用 torch.cuda.device_count()：计算当前可见可用的 GPU 数 torch.cuda.get_device_name()：获取 GPU 型号，如Tesla K80 torch.cuda.manual_seed()：为当前 GPU 设置随机种子 torch.cuda.manual_seed_all()：为所有可见可用 GPU 设置随机种子 tor.