加速英特尔® GPU上的大语言模型(LLM):动态量化实用指南

作者:Mingyu Kim,高级资深工程师;武卓,AI 软件布道师

动态量化是一种强大的优化技术,能显著提升 Transformer 模型在英特尔® GPU(具备 XMX 硬件,如 Lunar Lake、Arrow Lake 以及 Alchemist、Battlemage 等系列的集成及独立显卡)上的性能。

本文将探讨:

  • 什么是动态量化以及它在 OpenVINO™ 2025.2 中如何在 GPU 上工作

  • 默认行为和配置选项

  • 性能与精度的权衡

  • 启用或禁用它的代码示例

  • 如何验证其运行情况

注:本文重点讨论具备 XMX 的英特尔® GPU。在 CPU 或无 XMX 的 GPU(如 Meteor Lake)上的行为可能不同。

什么是动态量化?

动态量化通过在矩阵乘法(MatMul)运算前,将输入激活值(通常是 fp16)即时转换为 int8 来降低计算成本。


当模型权重已量化为 int4 或 int8 时,这种方法尤其高效。

在 OpenVINO™ 2025.2 中,量化沿着嵌入轴(最内层轴)进行。输入张量会被分组,每个分组的最小/最大值用于确定量化比例(scale)和零点(zero-point)。

image.png

OpenVINO™ 2025.2 默认行为

在具备 XMX&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值