超级计算机上分布式深度学习工具的比较研究
1. 引言
深度学习在各领域广泛应用,但也面临诸多挑战,其中因数据集和神经网络深度增加导致的训练时间增长问题愈发严重。传统单节点多线程加速方法难以满足大规模神经网络的训练需求,分布式并行训练应运而生。
多数现有的分布式并行训练系统是为GPU集群设计的,而超级计算机系统拥有充足的计算资源,能助力加速分布式深度学习。其可按需提供数百万个核心来部署深度学习任务,集群间的通信优化和一致性机制完善,且节点通过千兆以太网连接,通信延迟低。因此,在超级计算平台部署分布式深度学习系统有望在计算和可扩展性方面取得更好的性能。
常见的深度学习工具有很多,如BigDL、Caffe、TensorFlow、CNTK、MXNet、Torch等。考虑到超级计算机丰富的CPU资源,选择Caffe、TensorFlow和BigDL进行分布式并行训练评估。由于Caffe的原生版本不支持分布式计算,所以选用其分布式扩展Caffe - oMPI。
实验使用天河 - 2超级计算机高性能分区的CPU资源,天河 - 2在Top500榜单中排名第二。选取AutoEncoder、LeNet、ResNet和AlexNet等代表性卷积神经网络模型进行实验,主要性能指标包括前向和反向传播时间、通信时间、数据加载时间、准确率、加速比等。
2. 深度学习模型和工具
2.1 深度神经网络
与之前的全连接神经网络不同,深度神经网络大多是卷积神经网络(CNN)。CNN是多层神经网络,每层由多个二维平面组成,每个平面包含多个独立神经元。CNN使用一组内核构建卷积层,每个内核的参数在整个区域内共享,有效减少了参数数量。
超级会员免费看
订阅专栏 解锁全文
5556

被折叠的 条评论
为什么被折叠?



