NVIDIA Ampere架构是NVIDIA推出的高性能GPU微架构,它是继Volta和Turing架构之后的新一代技术。Ampere架构在2020年首次发布,并被用于构建多种类型的GPU产品,包括数据中心的A100以及面向消费者的GeForce RTX 30系列显卡。Ampere架构代表了在计算性能、能效和AI加速方面的重大进步。
主要特点和改进:
-
更多的CUDA核心:Ampere架构显著增加了CUDA核心数量,提高了每个SM(流式处理器)的计算能力,使得整体性能得到大幅提升。
-
第三代Tensor Core:Ampere引入了第三代Tensor Core,这些专用核心针对AI和深度学习计算进一步优化,支持更高效的混合精度运算,显著提升了AI训练和推理的性能。
-
第二代RT Core:Ampere架构加入了第二代RT Core,这些核心专门为光线追踪技术设计,提供更高效的光线追踪计算能力,带来更逼真的渲染效果。
-
更大的内存带宽和容量:Ampere GPU使用了更快的内存技术(如GDDR6X)和更大的内存容量,为大规模数据集和复杂应用提供支持。
-
改进的能效:Ampere架构在保持或提升性能的同时,也优化了能效比,使得同等能耗下能够执行更多的计算任务。
-
多实例GPU(MIG)功能:A100引入了多实例GPU功能,允许将GPU划分为多个独立的硬件分区,每个分区可以运行不同的任务,适用于云计算和数据中心环境。
-
PCI Express 4.0支持:Ampere GPU支持PCI Express 4.0标准,提供比前一代GPU更高的数据传输速度。
-
支持更多的并发运算:Ampere架构支持更多的并发运算和更复杂的计算任务,适合执行高性能计算(HPC)和复杂的数据分析。
-
异步复制:提供了一个新的异步复制指令,可将数据直接从全局内存加载到 SM 共享内存中,无需使用中间寄存器文件 (RF)。异步复制可减少寄存器文件带宽,更有效地使用内存带宽,并降低功耗。顾名思义,当 SM 执行其他计算时,可以在后台完成异步复制。
以 NVIDIA GA100 为 例子
NVIDIA GA100 GPU 由多个 GPU 处理集群 (GPC)、纹理处理集群 (TPC)、流式多处理器 (SM) 和 HBM2 内存控制器组成。
GA100 GPU 的完整实现包括以下单元:
- 8 个 GPC、8 个 TPC/GPC、2 个 SM/TPC、16 个 SM/GPC、128