多机多卡torch训练模型实践一

小李飞刀李寻欢

于 2024-12-23 11:27:50 发布

阅读量108

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Notebook 文章标签： pytorch 人工智能 python

本文链接：https://blog.youkuaiyun.com/SPESEG/article/details/144586042

Notebook 专栏收录该内容

222 篇文章 ¥399.90 ¥499.90

订阅专栏

超级会员免费看

请看如下示例：

import torch.distributed.autograd as dist_autograd
from torch.nn.parallel import DistributedDataParallel as DDP
import torch
from torch import optim
from torch.distributed.optim import DistributedOptimizer
import torch.distributed.rpc as rpc
from torch.distributed.rpc import RRef
t1 = torch.rand((3, 3), requires_grad=True)
t2 = torch.rand((3, 3), requires_grad=True)
rref = rpc.remote("worker1", torch.add, args=(t1, t2))
ddp_model = DDP(my_model)
# Setup optimizer
optimizer_params = [rref]
for param in ddp_model.parameters():
    optimizer_params.append(RRef(param))
dist_optim = DistributedOptimizer(
    optim.SGD,
    optimizer_params,
    lr=0.05,
)
with dist_autograd.context() as context_id:
    pred = ddp_model(rref.to_here())
    loss