张量并行TP
挖坑
流水线并行 PP
经典的流水线并行范式有Google推出的Gpipe,和微软推出的PipeDream。两者的推出时间都在2019年左右,大体设计框架一致。主要差别为:在梯度更新上,Gpipe是同步的,PipeDream是异步的。异步方法更进一步降低了GPU的空转时间比。虽然PipeDream设计更精妙些,但是Gpipe因为其“够用”和浅显易懂,更受大众欢迎(torch的pp接口就基于Gpipe)。因此本文以Gpipe作为流水线并行的范例进行介绍。https://zhuanlan.zhihu.com/p/613196255
gpipe论文 https://arxiv.org/pdf/1811.06965.pdf
naive模型并行

图片来自https://arxiv.org/pdf/1806.03377.pdf
如果一个模型一个gpu放不下,就某些层放在一个卡,上图表示一共四个卡,F0表示第0个batch,灰色的第一个卡计算完第0个batch交给黄色的卡。黄卡上放的模型的层的输入是灰色的卡上放的模型的输出。一次只有一个gpu工作。
GPipe
把mini batch分成micro batch,这样多个gpu可以同时计算。

最低0.47元/天 解锁文章
1155

被折叠的 条评论
为什么被折叠?



