很多人有疑问:为什么深度学习模型需要优化通信网络?
事实上,越是高性能算力的平台,越离不开通信网络的优化。近日,OneFlow创始人袁进辉与熊先奎先生(中兴通讯股份有限公司无线首席架构师)、宋庆春先生(国际高性能计算和人工智能咨询委员会亚太区主席)在《中兴通讯技术》上联合发表署名论文,探讨关于深度学习中通信网络优化的相关课题。让我们先来一起速读这篇论文的“精华”吧。
深度学习模型为何需要通信网络优化?
作为深度学习实现工程化的基础,以图形处理单元(GPU)多指令多数据流(MIMD)计算架构提供的高性能算力训练平台离不开计算范式的定制化设计和计算通信的网络优化,尤其是最新深度学习模型的训练需要消耗更多的算力。
鉴于深度学习模型计算主要是稠密型计算,业界广泛采用GPU等协处理器进行并行加速,但单个协处理器的算力仍无法满足日益增长的算力需求。通过高速互联技术把更多协处理器连接起来,能够协同输出大规模算力,可实现点对点数十至上百吉比特的传输带宽,例如节点内可以使用外设部件互连标准(PCIe)或NvLink等技术。当单个节点仍无法满足需求时,可通过高速网络实现多节点分布式计算。此时,由于传输带宽过低,普通以太网络(千兆网或万兆网)会出现多节点扩展效率极低、计算资源严重浪费的现象。因此,在分布式深度学习训练场景中,基于远程直接内存访问(RDMA)的网络通信成为最佳选择。
分布式深度学习训练任务必须使用RDMA技术,这是因为:
(1)深度学习训练任务普遍使用随机梯度下降算法。每处理一小片数据就需要更新模型参数,计算粒度很细,对网络传输的延迟容忍度非常低。
(2)深度学习普遍使用的GPU加速卡,吞吐率非常高。如果数据搬运速度跟不上计算速度,就容易造成计算资源浪费。
(3)在深度学习训练中,系统调度、数据加载和预处理均需要使用CPU资源,而基于传统以太网的网络传输也需要消耗很多CPU计算资源,这会影响整个系统的效率。RDMA的内核旁路技术可降低CPU利用率,提高整个系统效率。
分布式AI中使用RDMA面临的问题
现有深度学习框架极少直接基于RDMA技术开发网络通信库,通常都是通

本文探讨深度学习中通信网络优化的重要性,指出RDMA在分布式深度学习训练中的优势,包括低延迟和高吞吐。OneFlow作为唯一内置RDMA网络传输功能的深度学习框架,提供了多种解决方案以平衡内存利用率和运行效率。
最低0.47元/天 解锁文章
928

被折叠的 条评论
为什么被折叠?



