滴滴云A100 40G 性能测试 V100陪练!

博主通过实测对比了NVIDIA A100 GPU与V100、2080 Ti在深度学习任务上的表现,结果显示A100在多数模型训练中性能超出V100约1.5倍,部分场景可达1.7倍,全面超越2080 Ti。测试采用TensorFlow官方Benchmarks,涵盖了ResNet50、AlexNet、Inception v3、VGG16、GoogLeNet和ResNet152等多个模型。

眼看游戏卡RTX3080 发售在即,我终于等到了滴滴云(感谢)A100的测试机会。因为新卡比较紧张,一直在排队中,直到昨天才拿了半张A100...今天终于上手了单张40G的A100,小激动,小激动,小激动!!!基于安培架构的最新一代卡皇(NVIDIA GPU A100 Ampere)可以搞起来了。

Part 1:系统环境

A100正处于内存阶段,官网上还看不到。内测通过ssh连接,ssh连上去之后大概看了下系统环境。

操作系统,CPU,RAM数据如上。重点关注GPU:A100-SXM4-40GB (上次摸DGX A100的时候,没有把测试跑起来,好悔)

CUDA11,CudNN,TensorFlow1.5.2 等配套环境滴滴云都已经部署好了,可以省去好多时间!

这里需要注意,新版显卡必须要用CUDA11,而且得用NV自己编译的TensorFlow1.5.2。

然后,网上捞一段Python代码:

from tensorflow.python.client 
import device_lib print(device_lib.list_local_devices())

输出:

Created TensorFlow device (/device:GPU:0 with 36672 MB memory) -> physical GPU (device: 0, name: A100-SXM4-40GB, pci bus id: 0000:cb:00.0, compute capability: 8.0)
[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 3653225364972814250
, name: "/device:XLA_CPU:0"
device_type: "XLA_CPU"
memory_limit: 17179869184
locality {
}
incarnation: 7582640257522961335
physical_device_desc: "device: XLA_CPU device"
, name: "/device:XLA_GPU:0"
device_type: "XLA_GPU"
memory_limit: 17179869184
locality {
}
in
### 推荐配置方案 为了满足高性能计需求并充分利用 NVIDIA A100 40GB GPU 的强大性能,以下是针对工作站的具体硬件建议: #### 主板选择 应选用支持多路 PCIe 通道的工作站主板,确保能够充分发挥 A100 GPU 的带宽优势。推荐使用支持 ECC 内存双 CPU 插槽的型号,例如 Supermicro 或 ASUS 工作站系列主板[^2]。 #### 处理器 (CPU) 由于 A100 是面向 AI HPC 场景设计的加速卡,因此需要搭配高效的处理器来处理数据传输其他任务负载。Intel Xeon Scalable 系列或 AMD EPYC 系列都是不错的选择,它们提供更高的核心数线程数以优化并发性能。 #### 显卡安装数量 单张 A100 40GB 即可应对大多数深度学习训练场景;如果预允许或者存在更大规模模型的需求,则可以考虑两到四块GPU组合使用通过NVLink技术实现更高效的数据交换[^1]。 #### 存储设备 对于操作系统及轻量级应用程序存储可以选择高速SSD固态硬盘作为启动盘;而对于大数据集文件读写操作频繁的情况则需配备大容量企业级HDD/SSD混合阵列解决方案。 #### 冷却系统 鉴于A100功耗较高,在构建此类高端配置时必须重视散热管理。采用液冷方式能有效降低温度从而保障长期稳定运行。 ```python # Python 示例代码展示如何查询可用CUDA版本 import torch def check_cuda_version(): if not torch.cuda.is_available(): print("No CUDA device detected.") else: current_device = torch.device('cuda') capability_major, capability_minor = torch.cuda.get_device_capability(current_device) cuda_version = f"{capability_major}.{capability_minor}" print(f"CUDA Version: {cuda_version}") check_cuda_version() ```
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值