算力单位的解释

本文介绍了高性能计算的衡量标准,如100P表示每秒10亿亿次计算,1P相当于每秒1000万亿次计算。FLOPS和TOPS分别用于衡量浮点和整数运算能力,而稀疏算力在某些场景下可达到稠密算力的两倍。这些概念对于理解AI和科学计算的硬件需求至关重要。
该文章已生成可运行项目,

注:说算力的时候,需要明确精度和是否稠密/稀疏?否则无法比较。

例如:这款AI芯片提供 500 TFLOPS 的 BF16 稠密算力。

100P相当于5万台高性能电脑算力。

100P相当于每秒10亿亿次计算速度。

1P相当于每秒1000万亿次计算速度。(记忆方法:千万亿,刚好是从小到大的单位)

AI训练 (以 FP16/BF16 精度计算,半精度),这是最常用的比较基准。

  • 1张 H100 的 FP16 算力 ≈ 3.96 PFLOPS

  • 1张 A100 的 FP16 算力 ≈ 0.312 PFLOPS

计算过程:

  1. 相当于多少张 H100?

    • 1 PFLOPS / 3.96 PFLOPS per H100 ≈ 0.25 张

    • 结论:1P算力大约相当于 0.25 张 H100 的 FP16 理论峰值算力。 反过来,1张H100就提供了接近4P的算力。

  2. 相当于多少张 A100?

    • 1 PFLOPS / 0.312 PFLOPS per A100 ≈ 3.2 张

    • 结论:1P算力大约相当于 3.2 张 A100 的 FP16 理论峰值算力。

简单对比:

  • 1张 H100 ≈ 12.7 张 A100 (从纯FP16算力角度看:3.96 / 0.312 ≈ 12.7)

1P相当于15卡H100(FP32)

1P相当于51卡A100(FP32).

OPS:指的是每秒钟可以执行的整数运算次数,它代表着计算机在处理图像、音频等任务时的处理能力。TOPS的单位是万亿次每秒(trillion operations per second)。一般是指整数运算能力INT8。

FLOPS:指的是每秒钟可以执行的浮点运算次数,它代表着计算机在处理科学计算、机器学习等任务时的处理能力。TFLOPS的单位是万亿次每秒(trillion floating point operations per second)。一般是指单精度性能FP32。

一个 MFLOPS (megaFLOPS) 等于每秒1百万 (=10^6) 次的浮点运算,
一个 GFLOPS (gigaFLOPS) 等于每秒10亿 (=10^9) 次的浮点运算,
一个 TFLOPS (teraFLOPS) 等于每秒1万亿 (=10^12) 次的浮点运算,
一个 PFLOPS (petaFLOPS) 等于每秒1千万亿 (=10^15) 次的浮点运算。

英文million 是百万

billion是10亿,也就是 1000* million

稀疏性 - 一种“理论加速”指标

稀疏性是一种利用AI模型权重中存在大量零(稀疏权重)来加速计算的技术。

  • 稠密算力:计算时不考虑权重中是否包含零。所有元素都参与计算。这是实打实的、硬件直接提供的算力,是衡量基础性能的可靠指标。

  • 稀疏算力:假设权重矩阵有特定比例(通常是50%)的零值,硬件可以跳过对这些零的计算,从而在理论上实现翻倍的吞吐量。这是一种理想条件下的、有前提的加速比

    • 例子:NVIDIA A100支持2:4结构化稀疏。其FP16稠密算力为312 TFLOPS,但官方会标注其稀疏算力为624 TFLOPS

稀疏算力是有条件的理论值,稠密算力是实际硬件基础能力。

稀疏算力在账面上是稠密算力的 2 倍,即:100P(FP16)的稀疏算力=200P(FP16)稠密算力。

本文章已经生成可运行项目
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值