Intel MKL-DNN 量化编程模型详解

解银旦Fannie

于 2025-06-10 09:19:22 发布

阅读量303

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00307/article/details/148552666

Intel MKL-DNN 量化编程模型详解

oneDNN 项目地址: https://gitcode.com/gh_mirrors/mk/mkl-dnn

量化技术概述

在现代深度学习推理中，量化技术已成为提升计算效率的关键手段。Intel MKL-DNN（现为oneDNN）提供了完善的量化支持，允许开发者将浮点模型转换为低精度（如INT8）模型，从而在兼容硬件上实现更高效的推理。

量化基本原理

MKL-DNN采用的量化模型遵循以下公式：

x_f32[:] = scale_x * (x_int8[:] - zp_x)

其中：

scale_x 是浮点格式的缩放因子
zp_x 是int32格式的零点
[:] 表示公式对数组的逐元素应用

量化类型

静态量化：通过校准工具预先计算量化参数
动态量化：运行时根据张量的实际最小/最大值计算量化参数

量化实现流程

基本步骤

创建原始描述符：指定输入/输出为INT8数据类型
设置量化参数：通过掩码指定缩放因子和零点的维度
执行时提供参数：实际执行时提供具体的量化参数

数值行为特点

内部计算可能使用更宽的数据类型（如int16/int32）保证精度
结果转换时采用饱和处理防止溢出
不同架构的INT8计算行为可能有细微差异

典型应用：卷积量化

量化公式

对于带偏置的卷积，各张量表示为：

src_f32[:] = scale_src * (src_int8[:] - zp_src)
weights_f32[:] = scale_weights * weights_int8[:]
dst_f32[:] = scale_dst * (dst_int8[:] - zp_dst)

实际计算过程：

dst_int8[:] = f32_to_int8(
    (scale_src * scale_weights * 
    s32_to_f32(conv_s32(src_int8, weights_int8)
    - zp_src * comp_s32 + bias_f32) / scale_dst
    + zp_dst)

补偿项说明

comp_s32是补偿项，用于处理源张量的非零零点，通常可以在权重重排序时预计算。

通道级量化

MKL-DNN支持对权重张量进行逐输出通道的量化：

weights_f32(oc, ic, kh, kw) = scale_weights(oc) * weights_int8(oc, ic, kh, kw)

实现要点：

不同输出通道使用不同缩放因子
权重重排序时需进行逐通道缩放处理

API使用详解

核心API

主要使用primitive_attr设置量化参数：

void dnnl::primitive_attr::set_scales_mask(int arg, int mask);

使用示例

示例1：权重逐通道量化

// 设置权重量化属性
dnnl::primitive_attr attr;
const int quantization_mask = 0 | (1 << 0);  // 对维度0(OC)进行量化
attr.set_scales_mask(DNNL_ARG_DST, quantization_mask);

// 创建重排序原语
auto wei_reorder_pd = dnnl::reorder::primitive_desc(
        wei_plain_f32_md, engine,
        wei_conv_s8_md, engine,
        attr);

示例2：逐通道量化卷积

// 设置卷积量化属性
dnnl::primitive_attr attr;
const int wei_mask = 0 | (1 << 0);  // 权重按OC维度量化

attr.set_scales_mask(DNNL_ARG_SRC, 0);  // 源张量整体量化
attr.set_scales_mask(DNNL_ARG_WEIGHTS, wei_mask);
attr.set_scales_mask(DNNL_ARG_DST, 0);  // 目标张量整体量化

// 创建卷积原语描述符
auto conv_pd = dnnl::convolution_forward::primitive_desc(
        dnnl::prop_kind::forward_inference,
        /* 其他参数 */,
        attr);