GPU架构与概念解析
1. GPU浮点性能分析
GPU的每个周期中的融合乘加(FMA)操作可在一个周期内完成两个操作。其峰值理论浮点运算能力(GFlops/s)的计算公式为:
Peak Theoretical Flops (GFlops/s) = Clock rate MHZ × Compute Units × Processing units × Flops/cycle
以下是一些主流GPU的理论峰值浮点运算能力:
| GPU型号 | 单精度理论峰值浮点运算能力(TFlops) | 双精度理论峰值浮点运算能力(TFlops) |
| ---- | ---- | ---- |
| NVIDIA V100 | 15.6 | 7.8 |
| NVIDIA Ampere | 19.5 | 9.7 |
| AMD Vega 20 (MI50) | 13.4 | 6.7 |
| AMD Arcturus (MI100) | 23.1 | 11.5 |
| Intel Integrated Gen 11 on Ice Lake | 1.0 | - |
NVIDIA V100和AMD Vega 20都展现出了令人印象深刻的浮点峰值性能。Ampere在浮点性能上有一定提升,而内存性能的提升更为显著。AMD的MI100在浮点性能上有较大飞跃。英特尔集成GPU在受限于可用硅片空间和较低的CPU标称设计功率的情况下,表现也相当不错。随着英特尔计划为多个市场细分领域开发独立显卡,未来预计会有更多的GPU选择。
2. GPU内存空间特性
典型的GPU具有不同类型的内存,合理使用正确的
超级会员免费看
订阅专栏 解锁全文
2807

被折叠的 条评论
为什么被折叠?



