ResNet-50模型实测深度学习场景显卡性能

转载已于 2025-11-20 19:12:10 修改 · 860 阅读

CC 4.0 BY-SA版权

原文链接：https://www.mornai.cn/doc/index/detail/bid/1000/id/1137.html

文章标签：

于 2025-11-19 14:24:00 首次发布

9 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

RTX 5090是英伟达最新的消费级 NVIDIA GeForce 50 系列旗舰显卡，采用 Blackwell 架构，相比上一代4090性能显著提升，拥有更多 CUDA 核心、更高的算力、更大显存、采用更高带宽的 GDDR7 显存。

前面的文章，基于PyTorch框架使用ResNet-50模型实测了3090和4090两张显卡直接的性能差异：

这里用同样的方法测试5090、4090、3090三张显卡的模型训练性能表现。

看下英伟达官方提出的显卡参数规格：

在晨涧云算力平台分别租用5090、4090、3090三种显卡进行模型训练的对比测试：

5090显卡ResNet50模型训练性能测试

4090显卡ResNet50模型训练性能测试

3090显卡ResNet50模型训练性能测试

测试过程区分了FP32和FP16混合训练精度，然后比较在训练批次比较大，显存和GPU利用率都较高的情况下，各显卡的性能表现，看训练吞吐量的差异：

取最大样本吞吐量进行对比：

	RTX 5090	RTX 4090	RTX 3090
最大样本吞吐量(单精度)	1,076	699	489
最大样本吞吐量(混合精度)	1,822	1,224	836

从测试结果来看，在GPU使用率比较高的场景下（如BatchSize=256），模型训练样本的吞吐速度；在单精度和混合精度的模式下，5090的样本吞吐速度差不多是4090的1.5倍左右，4090的样本吞吐速度差不多是3090的1.45倍左右。

5090当前的市场价格比4090 贵不了多少，从测试结果来看，5090是性价比很不错的显卡，主要的问题在于5090基于新的Blackwell架构，必须使用新的 PyTorch （2.7 以上）和 CUDA （12.8 以上）版本，老的项目需要重新适配。

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch

Cuda

PyTorch 是一个开源的 Python 机器学习库，基于 Torch 库，底层由 C++ 实现，应用于人工智能领域，如计算机视觉和自然语言处理