算力单位的解释

原创已于 2025-10-30 11:26:43 修改 · 6w 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2023-02-02 11:31:44 首次发布

人工智能专栏收录该内容

83 篇文章

订阅专栏

本文介绍了高性能计算的衡量标准，如100P表示每秒10亿亿次计算，1P相当于每秒1000万亿次计算。FLOPS和TOPS分别用于衡量浮点和整数运算能力，而稀疏算力在某些场景下可达到稠密算力的两倍。这些概念对于理解AI和科学计算的硬件需求至关重要。

该文章已生成可运行项目，

注：说算力的时候，需要明确精度和是否稠密/稀疏？否则无法比较。

例如：这款AI芯片提供 500 TFLOPS 的 BF16 稠密算力。

100P相当于5万台高性能电脑算力。

100P相当于每秒10亿亿次计算速度。

1P相当于每秒1000万亿次计算速度。（记忆方法：千万亿,刚好是从小到大的单位）

AI训练 (以 FP16/BF16 精度计算，半精度)，这是最常用的比较基准。

1张 H100 的 FP16 算力 ≈ 3.96 PFLOPS
1张 A100 的 FP16 算力 ≈ 0.312 PFLOPS

计算过程：

相当于多少张 H100？
- 1 PFLOPS / 3.96 PFLOPS per H100 ≈ 0.25 张
- 结论：1P算力大约相当于 0.25 张 H100 的 FP16 理论峰值算力。 反过来，1张H100就提供了接近4P的算力。
相当于多少张 A100？
- 1 PFLOPS / 0.312 PFLOPS per A100 ≈ 3.2 张
- 结论：1P算力大约相当于 3.2 张 A100 的 FP16 理论峰值算力。

简单对比：

1张 H100 ≈ 12.7 张 A100 (从纯FP16算力角度看：3.96 / 0.312 ≈ 12.7)

1P相当于15卡H100（FP32）

1P相当于51卡A100(FP32).

OPS：指的是每秒钟可以执行的整数运算次数，它代表着计算机在处理图像、音频等任务时的处理能力。TOPS的单位是万亿次每秒（trillion operations per second）。一般是指整数运算能力INT8。

FLOPS：指的是每秒钟可以执行的浮点运算次数，它代表着计算机在处理科学计算、机器学习等任务时的处理能力。TFLOPS的单位是万亿次每秒（trillion floating point operations per second)。一般是指单精度性能FP32。

一个 MFLOPS (megaFLOPS) 等于每秒1百万 (=10^6) 次的浮点运算，
一个 GFLOPS (gigaFLOPS) 等于每秒10亿 (=10^9) 次的浮点运算，
一个 TFLOPS (teraFLOPS) 等于每秒1万亿 (=10^12) 次的浮点运算，
一个 PFLOPS (petaFLOPS) 等于每秒1千万亿 (=10^15) 次的浮点运算。

英文million 是百万

billion是10亿，也就是 1000* million

稀疏性 - 一种“理论加速”指标

稀疏性是一种利用AI模型权重中存在大量零（稀疏权重）来加速计算的技术。

稠密算力：计算时不考虑权重中是否包含零。所有元素都参与计算。这是实打实的、硬件直接提供的算力，是衡量基础性能的可靠指标。
稀疏算力：假设权重矩阵有特定比例（通常是50%）的零值，硬件可以跳过对这些零的计算，从而在理论上实现翻倍的吞吐量。这是一种理想条件下的、有前提的加速比。
- 例子：NVIDIA A100支持2:4结构化稀疏。其FP16稠密算力为312 TFLOPS，但官方会标注其稀疏算力为624 TFLOPS。

稀疏算力是有条件的理论值，稠密算力是实际硬件基础能力。

稀疏算力在账面上是稠密算力的 2 倍，即：100P（FP16）的稀疏算力=200P(FP16)稠密算力。

本文章已经生成可运行项目

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。