PyTorch 1.0 中文官方教程：使用PyTorch编写分布式应用程序

最新推荐文章于 2024-04-03 16:26:25 发布

翻译最新推荐文章于 2024-04-03 16:26:25 发布 · 3.7w 阅读

ApacheCN 专栏收录该内容

228 篇文章

订阅专栏

本教程介绍PyTorch的分布式软件包，演示如何在多进程和计算机集群中并行化计算，包括设置分布式环境、使用不同通信策略及包内部工作原理。

部署运行你感兴趣的模型镜像

译者：firdameng

作者：Soumith Chintala

在这个简短的教程中，我们将讨论PyTorch的分布式软件包。我们将看到如何设置分布式设置，使用不同的通信策略，并查看包的内部部分。

开始

PyTorch中包含的分布式软件包（即torch.distributed）使研究人员和从业人员能够轻松地跨进程和计算机集群并行化他们的计算。为此，它利用消息传递语义，允许每个进程将数据传递给任何其他进程。与多处理（torch.multiprocessing）包相反，进程可以使用不同的通信后端，并且不限于在同一台机器上执行。

开始我们需要能够同时运行多个进程。如果您有权访问计算群集，则应使用本地sysadmin进行检查，或使用您喜欢的协调工具。（例如，pdsh，clustershell或其他）为了本教程的目的，我们将使用单个机器并使用以下模板建立多个进程。

"""run.py:"""
#!/usr/bin/env python
import os
import torch
import torch.distributed as dist
from torch.multiprocessing import Process

def run(rank, size):
    """ Distributed function to be implemented later. """
    pass

def init_processes(rank, size, fn, backend='tcp'):
    """ Initialize the distributed environment. """
    os.environ['MASTER_ADDR'] = '127.0.0.1'
    os.environ['MASTER_PORT'] = '29500'
    dist.init_process_group(backend, rank=rank, world_size=size)
    fn(rank, size)

if __name__ == "__main__":
    size = 2
    processes = []
    for rank in range(size):