GPU云服务器深度学习性能模型初探

最新推荐文章于 2025-06-24 10:10:27 发布

煊琰

最新推荐文章于 2025-06-24 10:10:27 发布

阅读量784

点赞数

本文通过测试NVCaffe和MXNet等主流深度学习框架，在NVIDIA GPU上对图像分类及自然语言处理领域的训练模型进行了评估。研究了不同vCPU、内存配置对训练性能的影响。

1 背景
　　得益于GPU强大的计算能力，深度学习近年来在图像处理、语音识别、自然语言处理等领域取得了重大突破，GPU服务器几乎成了深度学习加速的标配。
　　阿里云GPU云服务器在公有云上提供的弹性GPU服务，可以帮助用户快速用上GPU加速服务，并大大简化部署和运维的复杂度。如何提供一个合适的实例规格，从而以最高的性价比提供给深度学习客户，是我们需要考虑的一个问题，本文试图从CPU、内存、磁盘这三个角度对单机GPU云服务器的深度学习训练和预测的性能模型做了初步的分析，希望能对实例规格的选择提供一个科学的设计模型。
　　下面是我们使用主流的几个开源深度学习框架在NVIDIA GPU上做的一些深度学习的测试。涉及NVCaffe、MXNet主流深度学习框架，测试了多个经典CNN网络在图像分类领域的训练和推理以及RNN网络在自然语言处理领域的训练。
2 训练测试
　　我们使用NVCaffe、MXNet主流深度学习框架测试了图像分类领域和自然语言处理领域的训练模型。
2.1 图像分类
　　我们使用NVCaffe、MXNet测试了图像分类领域的CNN网络的单GPU模型训练。
　　NVCaffe和MXNet测试使用ImageNet ILSVRC2012数据集，训练图片1281167张，包含1000个分类，每个分类包含1000张左右的图片。
2.1.1 CPU+Memory
2.1.1.1 NVCaffe
　　NVCaffe是NVIDIA基于BVLC-Caffe针对NVIDIA GPU尤其是多GPU加速的开源深度学习框架。LMDB格式的ImageNet训练集大小为240GB ，验证集大小为9.4GB。
　　我们使用NVcaffe对AlexNet、GoogLeNet、ResNet50、Vgg16四种经典卷积神经网络做了图像分类任务的模型训练测试。分别对比了不同vCPU和Memory配置下的训练性能。性能数据单位是Images/Second（每秒处理的图像张数）。图中标注为10000指的是迭代次数10000次，其它都是测试迭代次数为1000次。

原文链接