PipeDream

最新推荐文章于 2025-02-11 10:36:41 发布

转载最新推荐文章于 2025-02-11 10:36:41 发布 · 333 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://www.microsoft.com/en-us/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf

文章标签：

计算框架专栏收录该内容

26 篇文章

订阅专栏

本文探讨了深度学习中减少通信量的策略，如GPipe和PipeDream，它们通过pipeline并行实现计算效率提升，避免机时浪费。混合并行将PipelineParallel与DataParallel结合，自动划分提高效率。主要挑战在于权重同步和版本控制，解决方案包括权重暂存和忽略微小的权重更新差异。

比Data parallel的通信量大幅减少；

优点：填满pipeline，减少机时浪费;

GPipe:

PipeDream:

知识点：pipeline并行，throughtput取决于最慢的那个节点层；

混合并行：层与层用Pipeline Parallel，层内部用Data Parallel

自动划分：先在单卡上试探性跑一会儿("Profiling run")，拿到计算时间、通信时间等实际数据，再结合可以静态计算出的理论计算量、理论通信时间，决定分几节，每节多少个Data-parallel node;

难点1： Backward时，还要使用Forward时那同一份weights;

解决：Forward完立即暂存("Stash")下来weights, 供该batch Backward阶段使用；

难点2：同一个batch，在每层使用的weights, 总共更新的次数（版本号），是不同的；但因为对效果影响小，可忽略。

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。