作者:Mingyu Kim,高级资深工程师;武卓,AI 软件布道师
动态量化是一种强大的优化技术,能显著提升 Transformer 模型在英特尔® GPU(具备 XMX 硬件,如 Lunar Lake、Arrow Lake 以及 Alchemist、Battlemage 等系列的集成及独立显卡)上的性能。
本文将探讨:
-
什么是动态量化以及它在 OpenVINO™ 2025.2 中如何在 GPU 上工作
-
默认行为和配置选项
-
性能与精度的权衡
-
启用或禁用它的代码示例
-
如何验证其运行情况
注:本文重点讨论具备 XMX 的英特尔® GPU。在 CPU 或无 XMX 的 GPU(如 Meteor Lake)上的行为可能不同。
什么是动态量化?
动态量化通过在矩阵乘法(MatMul)运算前,将输入激活值(通常是 fp16)即时转换为 int8 来降低计算成本。
当模型权重已量化为 int4 或 int8 时,这种方法尤其高效。
在 OpenVINO™ 2025.2 中,量化沿着嵌入轴(最内层轴)进行。输入张量会被分组,每个分组的最小/最大值用于确定量化比例(scale)和零点(zero-point)。

OpenVINO™ 2025.2 默认行为
在具备 XMX&

最低0.47元/天 解锁文章
4027

被折叠的 条评论
为什么被折叠?



