
分布式训练
文章平均质量分 83
分布式训练
圣颖君
这个作者很懒,什么都没留下…
展开
-
torch分布式通信基础
【代码】torch分布式通信基础。原创 2023-07-13 11:35:33 · 3010 阅读 · 0 评论 -
torch分布式训练笔记
这里假设模型只有四个参数,分成两个 bucket,反向传播时,bucket0中的两个参数的梯度信息完成更新后,两个进程就可以分别调用 allreduce 操作,完成梯度信息的通信和同步。最基础的想法是,所有的卡都完成了整个模型的反向传播和梯度更新后,开始通信。但实际上每张卡可能效率不同,有的卡完成了全部梯度的更新,有的还没有。其他:关于 forward 和 backwark 中更多细节,比如通信具体是如何触发的, hook 的实现,这些后续阅读代码细节时再做介绍。DDP的构造函数中把上面说的流程都做了。原创 2023-07-12 11:30:58 · 365 阅读 · 0 评论