15、超级计算机上分布式深度学习工具的比较研究

算法笑匠

于 2025-08-25 10:09:35 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：并行计算前沿探索文章标签：超级计算机分布式深度学习 Caffe-oMPI

本文链接：https://blog.youkuaiyun.com/1a2s3d4f5g/article/details/153556286

并行计算前沿探索专栏收录该内容

70 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

超级计算机上分布式深度学习工具的比较研究

1. 引言

深度学习在各个领域得到了广泛应用，但仍面临诸多挑战。随着数据集规模和神经网络深度的增加，训练时间急剧增长，传统的单节点多线程加速方法已难以满足大规模神经网络的训练需求。因此，分布式并行训练应运而生，它能够利用大量计算节点组成的集群进行训练。

目前，大多数分布式并行训练系统是为 GPU 集群设计的，虽然也有一些关于深度学习工具基准测试的工作，但很多只考虑了单节点内的并行化。而使用超级计算机的 CPU 集群进行分布式并行训练具有很大优势，超级计算机拥有充足的计算资源，通信优化和一致性机制完善，节点间通过千兆以太网连接，通信延迟低，能够在计算和可扩展性方面取得更好的性能。

常见的深度学习工具众多，如 BigDL、Caffe、TensorFlow、CNTK、MXNet、Torch 等。其中，BigDL 专为 CPU 集群设计，TensorFlow 和 Caffe 在 CPU 和 GPU 上都有良好表现，而 CNTK、MXNet 和 Torch 主要侧重于 GPU 加速。鉴于超级计算机丰富的 CPU 资源，我们选择 Caffe、TensorFlow 和 BigDL 进行分布式并行训练的评估。由于原生的 Caffe 不支持分布式计算，我们选用了其分布式扩展 Caffe - oMPI。

本次实验使用了天河二号超级计算机高性能分区的 CPU 资源，选择了 AutoEncoder、LeNet、ResNet 和 AlexNet 等几种代表性的卷积神经网络模型进行测试，主要性能指标包括前向和反向传播时间、通信时间、数据加载时间、准确率、加速比等。