Pytorch分布式训练指南(详细)

pytorch分布式训练指北

第一章节的部分是简单的科普,想看如何在本地及docker内跑pytorch分布式的直接看第二章。

1、pytorch分布式代码基础

1.1、如何写pytorch的分布式代码

这个部分大概讲一下如何写分布式的Pytorch代码,首先,官方pytorch(v1.0.10)在分布式上给出的api有这么两个非常重要的
,需要使用的:

torch.nn.parallel.DistributedDataParallel

这个api和DataParallel相类似,也是一个模型wrapper。这个api可以帮助我们在不同机器的多个模型拷贝之间平均梯度。

torch.utils.data.distributed.DistributedSampler

在多机多卡情况下分布式训练数据的读取也是一个问题,不同的卡读取到的数据应该是不同的。dataparallel的做法是直接
将batch切分到不同的卡,这种方法对于多机来说不可取,因为多机之间直接进行数据传输会严重影响效率。于是有了利用sampler
确保dataloader只会load到整个数据集的一个特定子集的做法。DistributedSampler就是做这件事的。它为每一个子进程划分
出一部分数据集,以避免不同进程之间数据重复。

到这里要是还没看明白,那就建议看看谷歌。下面给出Pytorch的代码如何改成分布式代码:

from torch.utils.data import Dataset, DataLoader
from torch.utils.data.distributed import DistributedSampler
from torch.nn.parallel import DistributedDataParallel

dataset = your_dataset()
datasampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank)
dataloader = DataLoader(dataset, batch_size=batch_size_per_gpu, sampler=datasampler)
model = your_model()

##这个部分东西比较多,文章的后面我稍微做一些补充,细节可以去谷歌
model = DistributedDataPrallel(model, device_ids=[local_rank], output_device=local_rank)

1.2、各种参数介绍

想要使用DistributedDataParallel,想要用pytorch的分布式,那么首先需要完成多进程的初始化即:

torch.distributed.init_process_group(backend, init_method='env://', timeout=datetime.timedelta(0, 1800), **kwargs)

官方文档的介绍如下,想看我的介绍的直接跳过下面这段即可。

# Initializes the default distributed process group, and this will also initialize the distributed package

# Parameters: 
# backend (str or Backend) – The backend to use. Depending on build-time configurations, valid values include mpi, gloo, and nccl. This field should be given as a lowercase string (e.g., "gloo"), which can also be accessed via Backend attributes (e.g., Backend.GLOO).
# init_method (str, optional) – URL specifying how to initialize the process group.
# world_size (int, optional) – Number of processes participating in the job.
# rank (int, optional) – Rank of the current process.
# timeout (timedelta, optional) – Timeout for operations executed against the process group. Default value equals 30 minutes. This is only applicable for the gloo backend.
# group_name (str, optional, deprecated) – Group name.  请注意,最新的分布式软件包中不再支持多播地址。group_name也被弃用了。
# To enable backend == Backend.MPI, PyTorch needs to built from source on a system that supports MPI. The same applies to NCCL as well.

这里面涉及到一些不同机器通信的东西,我就不讲了,总而言之言而总之,我们使用的backend nccl即可,为什么?自己谷歌

1.3、nccl三种通信方式

1.3.1、TCP初始化

以TCP协议的方式进行不同分布式进程之间的数据交流,需要设置一个端口,不同进程之间公用这一个端口。
Note:如果使用docker的话需要在创建容器时加上 --net=host。例如:

sudo nvidia-docker run -dit --name gaobin_pytorch_dist -v /home/gaobin/docker:/notebooks -w /notebooks --net=host pytorch/pytorch:latest
1.3.2、文件共享系统初始化

这个地方不多说,需要自己的服务器有共享文件系统

1.3.3、环境变量初始化

这个和TCP一样也是非常好用的,我在这里贴一个官方的说明,有问题私下问我。

Node 1: (IP: 192.168.1.1, and has a free port: 1234)

>>> python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE
           --nnodes=2 --node_rank=0 --master_addr="192.168.1.1"
           --master_port=1234 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3
           and all other arguments of your training script)
Node 2:

>>> python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE
           --nnodes=2 --node_rank=1 --master_addr="192.168.1.1"
           --master_port=1234 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3
           and all other arguments of your training script)

2、本地跑Pytorch分布式代码

2.1、不使用docker本地跑

2.1.1、准备工作

这里我用我们的三台机器距离,M1: 10.90.25.19, M2: 10.90.25.18, M3: 10.90.25.14

多台机器需要有共同的训练环境,训练代码,训练数据,而且两台机器的代码、数据存储路径地址必须相同。例如:
代码和数据的路径位置在M1、M2、M3必须一致,比如代码存在M1的/home/gaobin/docker/dist_test文件夹下,那么在
M2和M3机器下也必须存在这个路径下。

2.1.2、TCP和环境变量方法运行示例:

1、TCP方式
以TCP协议的方式进行不同分布式进程之间的数据交流,需要设置一个端口,不同进程之间公用这一个端口,并且设置host的级别和host的数量。
设计两个参数rank和world_size。
其中rank为host的编号,默认0为主机,端口应该位于该主机上。world_size为分布式主机的个数。
执行方式命令例子:

## 第一台机器
## M1: 10.90.25.19:
python train.py --backend nccl --init-method tcp://10.90.25.19:12345 --rank 0 --world-size 3 --其他参数

## 第二台机器
## M2: 10.90.25.18:
python train.py --backend nccl --init-method tcp://10.90.25.19:12345 --rank 1 --world-size 3 --其他参数

## 第三台机器
## M3: 10.90.25.14:
python train.py --backend nccl --init-method tcp://10.90.25.19:12345 --rank 2 --world-size 3 --其他参数

上面这三句指令的先后顺序没有要求,只有三条指令全部输入,程序才会运行起来。

2、环境变量方式
需要额外提供如下参数:

MASTER_PORT - required; has to be a free port on machine with rank 0
MASTER_ADDR - required (except for rank 0); address of rank 0 node
WORLD_SIZE - required; can be set either here, or in a call to init function
RANK - required; can be set either here, or in a call to init function

这个方式的运行和上面tcp的稍微有点不同,可以看到相当于将distributed的初始化放到了代码外面。
执行方式命令例子:

## 第一台机器
## M1: 10.90.25.19:
python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE
       --nnodes=3 --node_rank=0 --master_addr="10.90.25.19"
       --master_port=12345 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3
       and all other arguments of your training script)

## 第二台机器
## M1: 10.90.25.18:
python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE
       --nnodes=3 --node_rank=1 --master_addr="10.90.25.19"
       --master_port=12345 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3
       and all other arguments of your training script)
       
## 第三台机器
## M1: 10.90.25.14:
python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE
       --nnodes=3 --node_rank=2 --master_addr="10.90.25.19"
       --master_port=12345 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3
       and all other arguments of your training script)

其实个人觉得这个把distributed的初始化放在外面的方式也是非常清晰的。

2.2、使用docker本地跑

2.2.1、准备工作

和上面一样只是在创建容器的时候需要做端口映射,或者使用–net=host。我在这里给个例子:

所有的机器上均需要执行下面的命令来创建容器
sudo nvidia-docker run -dit --name gaobin_pytorch_dist -v /home/gaobin/docker:/notebooks -w /notebooks --net=host pytorch/pytorch:latest

说明:–net=host就是把容器的端口和主机的端口一一映射,这个文件挂载映射一定要保证映射到容器里的路径
在三台机器上一样,即:-v host_dir:container_dir,那么一定要保证container_dir在三台机器上用一样的名称,
host_dir可以不同。

其他的部分和上面2.1章节没有任何差别,在这里不再叙述。

2.3、使用共享文件系统本地跑

这个部分不做过多介绍,非常简单。

最后,祝大家不烧香拜佛也能炼出仙丹。

### 回答1: PSPICE 17.2 是一种用于电子电路仿真和分析的软件工具。下面是一份简单的 PSpice 17.2 使用初级教程: 1. 安装和启动:首先,你需要下载并安装 PSpice 17.2 软件。安装完成后,双击图标启动软件。 2. 创建电路:在软件界面上,选择“文件”>“新建”,然后在电路编辑器中创建你的电路。你可以从元件库中选择组件,并将其拖放到画布上。连接元件的引脚以构建电路。 3. 设置元件参数:双击元件以打开元件参数设置对话框。在对话框中,设置元件的值、名称和其他参数。对于电阻、电容等基本元件,可以直接输入数值。 4. 设置仿真配置:选择“仿真”>“设置和校验”,然后在仿真设置对话框中选择仿真的类型和参数。你可以选择直流分析、交流分析、暂态分析等。设置仿真参数后,点击“确定”。 5. 运行仿真:选择“仿真”>“运行”来启动仿真。在仿真过程中,软件将模拟电路的响应,并将结果输出到仿真波形窗口中。 6. 查看仿真结果:在仿真波形窗口中,你可以查看各个元件的电流、电压等参数随时间变化的波形。你还可以对波形进行放大、缩小、平移等操作,以更详细地分析电路的性能。 7. 保存和导出结果:在仿真过程中,你可以选择将结果保存为文件或导出为其他格式,如图像文件或数据文件。 以上是 PSpice 17.2 使用初级教程的基本步骤。随着实践的深入,你可以进一步了解复杂电路的建模和分析方法,并尝试更高级的功能和技术。 ### 回答2: PSPICE 17.2是一款电子电路仿真软件,用于对电路进行分析和验证。以下是PSPICE 17.2的使用初级教程: 1. 下载和安装:在官方网站上下载PSPICE 17.2并进行安装。 2. 组件库:打开PSPICE软件后,点击“Capture CIS”图标,进入组件库界面。选择适当的电子元件,如电阻、电容、二极管等,将它们拖放到画布上。 3. 电路连接:在画布上拖放所需元件后,使用导线工具连接它们。点击导线图标,选择合适的连接方式,并将其拖动到适当的端口上。 4. 参数设定:双击元件,弹出元件属性对话框。在这里设置元件的数值,例如电阻的阻值、电容的电容值等。 5. 电源设置:在画布上点击右键,选择“Power Sources”,然后选择适当的电源,如直流电源或交流电源。设置电源的电压或电流数值。 6. 仿真设置:点击画布上方的“PSpice”选项,选择“Edit Simulation Profile”打开仿真配置对话框。在仿真配置中,设置仿真参数,如仿真类型(直流、交流、脉冲等)、仿真时间等。 7. 仿真运行:在仿真配置对话框中点击“Run”按钮,开始进行电路仿真运行。仿真完成后,可以查看并分析仿真结果,如电流、电压、功率等。 8. 结果分析:通过菜单栏中的“PSpice>Probe”选项,打开特定信号的仿真结果。通过选择信号节点,可以显示该信号的波形、幅值和频谱等信息。 9. 数据输出:仿真结束后,可以通过“PSpice>Results”菜单栏选项,导出仿真结果到文本文件,以供后续分析。 10. 误差调整:如果仿真结果与预期不符,可以检查电路连接、元件参数等以找出问题。根据需要进行调整,重新运行仿真以验证改进效果。 以上就是PSPICE 17.2使用初级教程的简要介绍。在使用过程中,请参考软件的帮助文件和官方文档,以获取更详细的指导和解决方法。任何新的软件都需要不断的实践和尝试,希望这个教程能对你有所帮助。 ### 回答3: PSPICE 17.2是一款常用的电路仿真软件,用于电路设计和分析。下面是一个简要的PSPICE 17.2的初级教程: 1. 下载和安装:首先,从官方网站下载PSPICE 17.2,并按照安装向导进行安装。安装完成后,打开软件。 2. 创建新工程:在PSPICE 主界面上,点击“File”菜单,然后选择“New Project”来创建一个新的工程。给工程起一个适当的名字,并选择工程的存储位置。 3. 添加电路元件:在工程界面上,点击“Place”图标,然后选择不同的元件来构建你的电路。你可以从库中选择各种电子元件,如电阻、电容、电感等,并将它们拖放到工程界面上。 4. 连接元件:选择“Wire”图标,然后点击元件的引脚来连接它们。确保连接顺序正确,以保证电路的正确性。 5. 设置元件参数:对于每个添加的元件,你需要设置它们的参数。右键点击元件,选择“Edit Propertiess”,然后在弹出的窗口中输入适当的参数值。 6. 添加电源:在电路中添加电源,以提供电路所需的电能。选择“Place”图标,然后选择合适的电源元件并将其拖放到电路中。同样,设置电源的参数值。 7. 设置仿真配置:在工程界面上,点击“PSpice”菜单,然后选择“Edit Simulation Profile”来设置仿真配置参数。你可以选择仿真类型、仿真时间和仿真步长等。 8. 运行仿真:点击“PSpice”菜单,选择“Run”来运行仿真。PSPICE将自动运行仿真并显示结果。 9. 分析和优化:根据仿真结果,可以分析和优化电路的性能。你可以观察电流、电压和功率等参数,以评估电路的性能,并根据需要进行调整。 10. 保存和导出结果:在分析和优化完成后,可以保存你的工程并导出结果。点击“File”菜单,选择“Save Project”来保存工程,然后选择“Outut”菜单,选择“Export”来导出结果。 以上是PSPICE 17.2的初级教程的简要介绍。通过以上步骤,你可以开始使用PSPICE 17.2进行电路设计和仿真。在实践中不断探索和学习,你将成为一个熟练的PSPICE用户。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值