33、GPU架构与性能分析

perl8

于 2025-10-30 12:17:33 发布

阅读量2

点赞数

CC 4.0 BY-SA版权

分类专栏：并行与高性能计算入门文章标签： GPU架构浮点峰值性能内存带宽

本文链接：https://blog.youkuaiyun.com/perl8/article/details/155398164

并行与高性能计算入门专栏收录该内容

64 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

GPU架构与性能分析

1. GPU浮点峰值性能

GPU每周期的操作包含融合乘加（FMA），它能在一个周期内完成两个操作。峰值理论浮点运算次数（GFlops/s）的计算公式为：
Peak Theoretical Flops (GFlops/s) = Clock rate MHZ × Compute Units × Processing units × Flops/cycle

以下是一些主流GPU的理论峰值浮点运算次数：
| GPU型号 | 单精度理论峰值浮点运算次数（TFlops） | 双精度理论峰值浮点运算次数（TFlops） |
| ---- | ---- | ---- |
| NVIDIA V100 | 15.6 | 7.8 |
| NVIDIA Ampere | 19.5 | 9.7 |
| AMD Vega 20 (MI50) | 13.4 | 6.7 |
| AMD Arcturus (MI100) | 23.1 | 11.5 |
| Intel Integrated Gen 11 on Ice Lake | 1.0 | - |

NVIDIA V100和AMD Vega 20都有出色的浮点峰值性能，Ampere在浮点性能上有进一步提升，而AMD的MI100在浮点性能上有更大的飞跃。Intel集成GPU在有限的硅片空间和较低的CPU标称设计功率下也表现不俗。随着Intel计划为多个市场细分领域开发独立显卡，未来GPU的选择将会更多。