【评估指标】每秒浮点运算次数 FLOPs

藓类少女

已于 2025-01-07 10:37:45 修改

阅读量1.4k

点赞数 14

分类专栏： # 评估指标文章标签：评估指标深度学习

于 2025-01-07 10:34:03 首次发布

本文链接：https://blog.youkuaiyun.com/a13545564067/article/details/144979566

版权

5 篇文章

订阅专栏

FLOPs 是 Floating Point Operations Per Second 的缩写，表示 每秒浮点运算次数。在深度学习和计算领域中，FLOPs 通常用来衡量模型的计算复杂度，表示模型执行一次完整前向或后向传播所需的浮点运算数量。

FLOPs 指的是一个模型在计算过程中所需要执行的基本浮点运算的总数。这些运算包括：

例如：对于矩阵乘法，如果矩阵大小为 A ∈Rm×n和 B∈Rn×p，

FLOPs 主要用于衡量模型的计算成本和效率，尤其在以下场景中：

在 Transformer 中，FLOPs 主要由以下模块决定：

注意力机制（Attention）：
需要计算查询 Q、键 K、值 V 的点积，计算复杂度为：

其中 n 是序列长度，d 是隐藏层维度。
前馈神经网络（Feed-Forward Network, FFN）：
FFN 中的两个全连接层 FLOPs 约为：

其中 n 是序列长度，d 是隐藏层维度。

FLOPs 还用于对比不同模型的训练成本。例如，Transformer 的 FLOPs 是其他复杂模型（如 RNN 和 CNN）的一个重要比较维度：

Transformer 以显著更低的 FLOPs 数实现了优越的性能。

FLOPs 还经常结合硬件的性能进行讨论。例如，一个 GPU 的理论峰值性能可能用 TFLOPs（万亿次浮点运算）表示。比如：

每秒总 FLOPs 计算能力：
- 8 块 GPU 的总性能为：
  每秒 FLOPs 总数 = 8×9.5×10^12
  = 76×10^12FLOPs/s
  = 7.6×10^13FLOPs/s。
完成训练所需总时间（秒）：
- 模型需要 10^19 FLOPs，总时间为：
  时间（秒） = 总 FLOPs / 每秒 FLOPs 总数 = 10^19
  / 7.6×10^13
  ≈ 1.316×10^5 秒。
转换为天数：
- 1 天 = 86400 秒，所以：
  时间（天）= 1.316×10^5 / 86400 ≈ 1.52天。

理论上，在 8 块 P100 GPU 上完成一个需要 10^19 FLOPs 的模型训练，大约需要 1.52 天（约 36 小时）。
如果实验中包含其他瓶颈（如内存访问、I/O、并行化效率不足等），实际时间可能会接近 3 天。
如果实际时间为 3 天，则暗示硬件利用率约为 1.52/3 ≈ 50%。

总结来说，FLOPs 是衡量模型计算复杂度的核心指标，对于评估模型效率和硬件需求至关重要。