A100 40G和魔改4090 48G模型训练算力比较

最新推荐文章于 2025-12-18 19:42:40 发布

原创最新推荐文章于 2025-12-18 19:42:40 发布 · 668 阅读

CC 4.0 BY-SA版权

文章标签：

12 篇文章

订阅专栏

这篇文章的测试主要针对两个问题：

这里还是使用 ResNet-50 进行模型训练测试。

两张显卡的参数规格：

在晨涧云AI算力平台分别租用A100 40G和4090 48G的云主机实例。

基于Pytorch框架来训练ResNet-50模型，使用CIFAR-10数据集进行测试对比。

A100 40G模型训练测试结果

4090 48G模型训练测试结果

补充之前测试的4090 24G的结果：

4090 24G模型训练测试结果

可以看到魔改48G显存的4090显卡在算力方面并没有折损，并且48G显存提供了更多的BatchSize样本吞吐空间。

使用了FP32和FP16混合训练精度，相比之前3090和4090的测试，因为A100 40G和4090 48G有更大的显存，训练批次在原先的基础上增加了384的BatchSize，看训练吞吐量的差异：

看在GPU使用率比较高的场景下（BatchSize>=256），模型训练样本的吞吐速度比较；单精度训练A100 40G的样本吞吐速度是4090 48G的125%，半精度训练A100 40G的样本吞吐速度是4090 48G的105%。

综合而言，A100作为专业级训练卡在训练场景还是有其优势的，而且A100支持NVLink和MIG；但相比4090的算力差距并不明显，而4090在其他场景，特别是图像处理、3D渲染等也非常能打，再加上魔改的48G显存，目前在中端显卡市场可以说是最全面的存在。