注:说算力的时候,需要明确精度和是否稠密/稀疏?否则无法比较。
例如:这款AI芯片提供 500 TFLOPS 的 BF16 稠密算力。
100P相当于5万台高性能电脑算力。
100P相当于每秒10亿亿次计算速度。
1P相当于每秒1000万亿次计算速度。(记忆方法:千万亿,刚好是从小到大的单位)
AI训练 (以 FP16/BF16 精度计算,半精度),这是最常用的比较基准。
-
1张 H100 的 FP16 算力 ≈ 3.96 PFLOPS
-
1张 A100 的 FP16 算力 ≈ 0.312 PFLOPS
计算过程:
-
相当于多少张 H100?
-
1 PFLOPS / 3.96 PFLOPS per H100 ≈ 0.25 张
-
结论:1P算力大约相当于 0.25 张 H100 的 FP16 理论峰值算力。 反过来,1张H100就提供了接近4P的算力。
-
-
相当于多少张 A100?
-
1 PFLOPS / 0.312 PFLOPS per A100 ≈ 3.2 张
-
结论:1P算力大约相当于 3.2 张 A100 的 FP16 理论峰值算力。
-
简单对比:
-
1张 H100 ≈ 12.7 张 A100 (从纯FP16算力角度看:3.96 / 0.312 ≈ 12.7)
1P相当于15卡H100(FP32)
1P相当于51卡A100(FP32).
OPS:指的是每秒钟可以执行的整数运算次数,它代表着计算机在处理图像、音频等任务时的处理能力。TOPS的单位是万亿次每秒(trillion operations per second)。一般是指整数运算能力INT8。
FLOPS:指的是每秒钟可以执行的浮点运算次数,它代表着计算机在处理科学计算、机器学习等任务时的处理能力。TFLOPS的单位是万亿次每秒(trillion floating point operations per second)。一般是指单精度性能FP32。
一个 MFLOPS (megaFLOPS) 等于每秒1百万 (=10^6) 次的浮点运算,
一个 GFLOPS (gigaFLOPS) 等于每秒10亿 (=10^9) 次的浮点运算,
一个 TFLOPS (teraFLOPS) 等于每秒1万亿 (=10^12) 次的浮点运算,
一个 PFLOPS (petaFLOPS) 等于每秒1千万亿 (=10^15) 次的浮点运算。
英文million 是百万
billion是10亿,也就是 1000* million
稀疏性 - 一种“理论加速”指标
稀疏性是一种利用AI模型权重中存在大量零(稀疏权重)来加速计算的技术。
-
稠密算力:计算时不考虑权重中是否包含零。所有元素都参与计算。这是实打实的、硬件直接提供的算力,是衡量基础性能的可靠指标。
-
稀疏算力:假设权重矩阵有特定比例(通常是50%)的零值,硬件可以跳过对这些零的计算,从而在理论上实现翻倍的吞吐量。这是一种理想条件下的、有前提的加速比。
-
例子:NVIDIA A100支持2:4结构化稀疏。其FP16稠密算力为312 TFLOPS,但官方会标注其稀疏算力为624 TFLOPS。
-
稀疏算力是有条件的理论值,稠密算力是实际硬件基础能力。
稀疏算力在账面上是稠密算力的 2 倍,即:100P(FP16)的稀疏算力=200P(FP16)稠密算力。
本文介绍了高性能计算的衡量标准,如100P表示每秒10亿亿次计算,1P相当于每秒1000万亿次计算。FLOPS和TOPS分别用于衡量浮点和整数运算能力,而稀疏算力在某些场景下可达到稠密算力的两倍。这些概念对于理解AI和科学计算的硬件需求至关重要。

1万+

被折叠的 条评论
为什么被折叠?



