RTX 5090是英伟达最新的消费级 NVIDIA GeForce 50 系列旗舰显卡,采用 Blackwell 架构,相比上一代4090性能显著提升,拥有更多 CUDA 核心、更高的算力、更大显存、采用更高带宽的 GDDR7 显存。
前面的文章,基于PyTorch框架使用ResNet-50模型实测了3090和4090两张显卡直接的性能差异:
这里用同样的方法测试5090、4090、3090三张显卡的模型训练性能表现。
显卡参数比较
看下英伟达官方提出的显卡参数规格:
| RTX 5090 | RTX 4090 | RTX 3090 | |
|---|---|---|---|
| 架构 | Blackwell | Ada Lovelace | Ampere |
| CUDA核心 | 21,760 | 16,384 | 10,496 |
| 显存容量 | 32 GB GDDR7 | 24 GB GDDR6X | 24 GB GDDR6X |
| 显存带宽 | 1792 GB/s | 1,008 GB/s | 936 GB/s |
| TDP功耗 | 575W | 450W | 350W |
| FP32 算力 | 104.8 TFLOPS | 82.6 TFLOPS | 35.6 TFLOPS |
| Tensor FP16 算力 | 419 TFLOPS | 330 TFLOPS | 142 TFLOPS |
模型训练测试
在 晨涧云 算力平台分别租用5090、4090、3090三种显卡进行模型训练的对比测试:
5090测试

4090测试

3090测试

测试结果
测试过程区分了FP32和FP16混合训练精度,然后比较在训练批次比较大,显存和GPU利用率都较高的情况下,各显卡的性能表现,看训练吞吐量的差异:
-
精度:FP32 表示使用单精度训练,FP16 表示使用混合精度训练
-
BatchSize:训练批次大小
-
Samples/s:每秒样本吞吐量
-
VRAM (MB):平均显存使用量
-
GPU Util (%):平均GPU利用率
取最大样本吞吐量进行对比:
| RTX 5090 | RTX 4090 | RTX 3090 | |
|---|---|---|---|
| 最大样本吞吐量(单精度) | 1,076 | 699 | 489 |
| 最大样本吞吐量(混合精度) | 1,822 | 1,224 | 836 |
从测试结果来看,在GPU使用率比较高的场景下(如BatchSize=256),模型训练样本的吞吐速度;在单精度和混合精度的模式下,5090的样本吞吐速度差不多是4090的1.5倍左右,4090的样本吞吐速度差不多是3090的1.45倍左右。
5090当前的市场价格比4090 贵不了多少,从测试结果来看,5090是性价比很不错的显卡,主要的问题在于5090基于新的Blackwell架构,必须使用新的 PyTorch (2.7 以上) 和 CUDA (12.8 以上)版本,老的项目需要重新适配。
880

被折叠的 条评论
为什么被折叠?



