使用PyTorch进行显卡AI性能实测

部署运行你感兴趣的模型镜像

我们在很多地方都会看到各种显卡的参数比较,性能天梯图等,但很多都是基于显卡产品规格的纸面数据,在实际应用中,特别是AI方面的应用,各种显卡的实际性能到底如何,或者如何更有效地从应用的角度测试显卡的性能?

这里我们选择了英伟达的RTX 3090和RTX 4090两张显卡,基于实际模型训练的场景下实测性能来比较下被称为「上一代卡皇」的 3090 和「当前消费级主力」的 4090 的实际性能到底差多少。

3090和4090参数对比

先对比先3090和4090两张显卡的参数规格:

RTX 3090RTX 4090
架构AmpereAda Lovelace
CUDA核心数10,49616,384
显存容量24 GB GDDR6X24 GB GDDR6X
显存带宽936 GB/s1,008 GB/s
TDP功耗350W450W
FP32 算力35.6 TFLOPS82.6 TFLOPS
Tensor FP16 算力142 TFLOPS330 TFLOPS

  • 3090和4090在显存层面比较接近,显存容量都是24GB,显存带宽差异也不大

  • 算力方面,4090无论是单精度还是Tensor FP16都是3090的2.3倍左右

  • 其他方面,4090基于新的Ada Lovelace架构,并且功耗也远高于3090

基于ResNet-50的模型训练测试

ResNet-50是经典的计算机视觉模型,一种深度为50 层的卷积神经网络(CNN)。

我们基于Pytorch框架来训练ResNet-50模型,基于CIFAR-10数据集进行测试,来比较样本吞吐速度、显卡使用、GPU使用率等。

直接从GPU算力平台 晨涧云 分别租3090和4090两种机器进行模型训练的对比测试:

RTX 3090

RTX 4090

测试结果解释

  • 精度FP32 表示使用单精度训练,FP16 表示使用混合精度训练

  • BatchSize:训练批次大小

  • Samples/s:每秒样本吞吐量

  • VRAM (MB):峰值显存使用量

  • GPU Util (%):峰值GPU利用率

这里主要看在GPU使用率比较高的场景下(BatchSize=256),模型训练样本的吞吐速度比较;无论是单精度还是混合精度,RTX 4090的样本吞吐速度差不多是RTX 3090的1.45倍左右

您可能感兴趣的与本文相关的镜像

PyTorch 2.5

PyTorch 2.5

PyTorch
Cuda

PyTorch 是一个开源的 Python 机器学习库,基于 Torch 库,底层由 C++ 实现,应用于人工智能领域,如计算机视觉和自然语言处理

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值