12.7. 参数服务器
当我们从一个GPU迁移到多个GPU时,以及再迁移到包含多个GPU的多个服务器时(可能所有服务器的分布跨越了多个机架和多个网络交换机),分布式并行训练算法也需要变得更加复杂。
通过细节可以知道,一方面是不同的互连方式的带宽存在极大的区别(例如,NVLink可以通过设置实现跨条链路的高达100GB/s的带宽,16通道的PCIe4.0提供32GB/s的带宽,而即使是高速100GbE以太网也只能提供大约10GB/s的带宽);另一方面是期望开发者既能完成统计学习建模还精通系统和网络也是不切实际的。
小结
-
同步需要高度适应特定的网络基础设施和服务器内的连接,这种适应会严重影响同步所需的时间。
-
环同步对于p3和DGX-2服务器是最佳的,而对于其他服务器则未必。
-
当添加多个参数服务器以增加带宽时,分层同步策略可以工作的很好。