神经网络模型量化（Quantization）

原创

已于 2022-04-27 21:11:05 修改 · 851 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习 #神经网络 #cnn

于 2022-04-01 20:41:57 首次发布

模型部署系列文章目录

##模型优化系列文章

模型量化
模型压缩

`提示：根据作者认知及理解加深，博文会迭代更新，目前贴出来的难免有纰漏，希望能够与读者互动改进`

文章目录

模型部署系列文章目录
- ` 提示：根据作者认知及理解加深，博文会迭代更新，目前贴出来的难免有纰漏，希望能够与读者互动改进`
前言
一、模型量化（Quantization）概念
二、模型量化方法
三、模型量化精度损失
总结
参考资料

前言

提示：这里可以添加本文要记录的大概内容：

提示：以下是本篇文章正文内容，下面案例可供参考

一、模型量化（Quantization）概念

模型量化能够减少模型的大小，进而优化内存的使用，及访问速度。

二、模型量化方法

1. 训练后量化（PTQ/Post Traning Quantization）

1.1 静态量化

1.1.1 per Tensor量化

1.1.2 per layer量化

1.1.3 per channel量化

1.2 动态量化

动态量化是权重被提前量化，而activation在推理过程中动态量化。
应用场景：模型执行时间主要由从内存中加载权重而不是计算矩阵乘法来决定。

2. 量化感知训练（QAT/Quantization Aware Training）

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

alibote

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

神经网络模型量化方法简介

jacke121的专栏

06-14

5325

量化模型（Quantized Model）是一种模型加速（Model Acceleration）方法的总称，包括二值化网络（Binary Network）、三值化网络（Ternary Network），深度压缩（Deep Compression）等。鉴于网上关于量化模型的不多，而且比较零散，本文将结合TensorLayer 来讲解各类量化模型，并讨论一下我们过去遇到的各种坑。文章最后会介绍一些关于人工智能芯片的技术。 TensorLayer 是一个基于TensorFlow 的高级开发工具，提供大量数...

神经网络量化基础(2)——量化模型的实现

安静到无声

07-15

1878

神经网络量化基础 神经网络量化基础(1)——模型的构建与基础量化函数的实现文章目录神经网络量化基础前言1. 网络量化模块5. 网络量化模块5. 网络量化模块前言本文是在阅读博客时对代码的整理，旨在对量化的基础过程有更加清晰的认识。主要包括，基础训练模型的构建，对训练模型的测试和一些基础的量化函数求解，如：“计算尺度因子，零点，进行量化操作和反量化操作。本文采用pytorch手工构建了一个基础网络模型，数据集采用mnist数据集，并对网络进行量化。不在赘述，直接看训练代码。 1. 网络量化模块

参与评论您还未登录，请先登录后发表或查看评论

网络模型量化(低比特量化)-----学习笔记

weixin_43391596的博客

02-11

2499

网络模型量化(低比特量化)-----学习笔记

神经网络模型量化

luoganttcc的博客

12-24

656

基本概念昇腾模型压缩工具提供了一系列的模型压缩方法，对模型进行压缩处理后，生成的部署模型在昇腾AI处理器上可使能一系列性能优化操作，提高性能。昇腾模型压缩工具当前使用的压缩方法主要包括：量化、融合以及张量分解，根据功能划分为量化和张量分解。量化量化是指对模型的权重（weight）和数据（activation）进行低比特处理，让最终生成的网络模型更加轻量化，从而达到节省网络模型存储空间、降低传输时延、提高计算效率，达到性能提升与优化的目标。张量分解张量分解通过分解卷积核的张量，将

定点浮点 神经网络 量化_神经网络模型量化论文小结

weixin_39682477的博客

12-22

1581

神经网络模型量化论文小结发布时间：2018-07-22 13:25,浏览次数：278现在“边缘计算”越来越重要，真正能落地的算法才是有竞争力的算法。随着卷积神经网络模型堆叠的层数越来越多，网络模型的权重参数数量也随之增长，专用硬件平台可以很好的解决计算与存储的双重需求，但目前还不成熟，存在些亟待解决的问题，没能大规模商用。对模型进行参数量化的主要目的是减小模型存储体积，加速运算，能够将算法应用在通...

Python深度学习实践：神经网络的量化和压缩

AI天才研究院

06-15

412

随着深度学习模型在各种领域的广泛应用,模型的大小和计算复杂度也在不断增加。然而,在诸如移动设备、物联网和边缘计算等资源受限环境中部署这些大型模型仍然是一个巨大挑战。因此,神经网络的量化和压缩技术应运而生,旨在减小模型的尺寸和计算开销,同时保持模型的精度和性能。

神经网络的量化训练方法与过程解析

最新发布

08-15

随着硬件技术的发展和应用需求的增长，神经网络模型的大小和计算量不断膨胀，对存储和计算资源提出了巨大挑战。量化训练是一种旨在减少模型大小和加速计算的方法，通过减少模型参数和激活值的精度来实现。在这一过程...

神经网络参数量化，模型压缩论文笔记Training with Quantization Noise for Extreme Model Compression

Li Kang 笔记本

05-05

3338

本文介绍了一种新的神经网络参数量化的方法，能够极大压缩神经网络对内存的消耗。量化的方法有两类，一类是标量定点化，就是我们常用的定点方式。通过确定变量的动态范围，最大值和最小值，来确定变量需要的位数。文中提到了int4和int8。另一类是向量定点化，将一个列向量，分成多个子向量。子向量之间共用一套编解码本。能实现更大的压缩率。本文称为Product Quantization，简称为PQ。一般的定点化是对训练的结果进行定点化，但是这样会带来性能的下降。常用的解决方法是在训练时就使用定点数而不

神经网络模型的量化简介（工程版）

低吟浅笑

06-21

2567

按量化参数分类，可分为静态量化和动态量化，区别这两种方式主要是是否提供校准集，动态量化更简单，更灵活，但是推理开销较大，会内嵌一些动态参数，特别注意，动态量化对于TensorRT的engine生成较复杂，因为TensorRT不支持DynamicQuantizeLinear操作。按量化时间分类，

Quantization.pdf

12-11

针对量化的一片综述性的论文，Published in: IEEE Transactions on Information Theory

神经网络—模型量化

weixin_45084062的博客

09-12

661

神经网络模型量化是一种将浮点参数和激活值转换为定点数或低位宽的整数表示的技术，以减小模型的存储空间和计算复杂度，同时尽可能保持模型的性能。模型量化可以有助于在资源受限的设备上部署更加高效的神经网络模型。简单直白点讲，即原来表示一个权重需要使用float32表示，量化后只需要使用int8来表示就可以啦，仅仅这一个操作，我们就可以获得接近4倍的网络加速！

深度神经网络模型量化

DuHz的博客

05-18

1509

模型量化是一种重要的模型压缩技术，通过将高精度的浮点数参数和激活值转换为低精度的整数表示，从而减少模型存储空间并加速推理过程。量化过程可以视为一种映射函数，将连续浮点数值域映射到离散整数值域，不可避免地引入量化误差。均匀量化是最常见的量化方法，分为无符号、有符号和对称均匀量化，通过线性映射将浮点数范围映射到整数范围。非均匀量化则考虑数据分布特性，如对数量化和基于聚类的非均匀量化，在数据密集区域分配更多量化级别以提高精度。量化技术在降低计算复杂度和提高执行效率方面具有显著优势，是深度神经网络优化的重要手段。

神经网络量化

LiuXiang032的博客

10-01

1045

神经网络量化

【神经网络】神经网络加速之量化模型

小小小草儿的博客哟

07-04

3345

1.简介 2.模型介绍 2.1 DeepCompression 2.2 Binary-Net 2.3 Ternary-Net 3.实验分析 3.1 Binary-Net in MNIST 3.2 Ternary-Net in MNIST 3.3 DoReFa-Net in MNIST 4.卷积优化 4.1 内存换时间 4.2 乘法优化 4.3 GPU优化 4.4 Strassen算...

神经网络的量化

新缸中之脑

07-03

1148

量化是降低权重、偏差和激活精度的过程，从而消耗更少的内存。换句话说，量化的过程就将神经网络参数的32位浮点数表示，转换为更小的表示形式，例如8位整数。例如，从 32 位变为 8 位将使模型大小减少 4 倍，因此量化的一个明显好处是显着减少内存。图 2 显示了一个示例。量化的另一个好处是它可以降低网络延迟并提高能效。由于可以使用整数而不是浮点数据类型执行操作，因此网络速度得到了提高。这些整数运算在大多数处理器内核（包括微控制器）上需要较少的计算。

神经网络模型量化综述（下）

LF_AI的博客

10-09

1155

通过训练，神经网络就可以使用更低精度的数据格式（包括浮点、定点和整数）进行推理。低精度数据格式提供了几个性能优势：许多处理器通过 low-bit 格式提供更高吞吐量的数学管道，这可以加快计...

【转】超全总结：神经网络加速之量化模型

yh1226的博客

02-18

753

https://www.jiqizhixin.com/articles/2018-06-01-11 含有卷积加速方法

神经网络模型量化教程

01-14

### 神经网络模型量化教程 #### 一、理解神经网络量化概念 神经网络量化是指将浮点数参数转换成低精度整数表示的过程，这不仅涉及对网络中的权重进行量化，还包括对激活值的量化[^1]。这种处理方式能够显著减少模型存储空间并加快推理速度。 #### 二、准备环境与工具链为了实施有效的量化操作，开发者需先搭建合适的开发平台，并安装必要的库文件和支持软件包。例如，在Python环境中可利用TensorFlow Lite或PyTorch Mobile等框架来进行量化工作。 #### 三、选择待量化的基础组件针对不同类型的层（如卷积层conv、ReLU函数relu、最大池化层maxpooling以及全连接层fc），应分别设计相应的量化策略[^2]。每种基本单元都有其特定的数据分布特点，因此需要针对性地调整量化方法以确保最佳性能表现。 #### 四、执行量化过程在具体实践中，可以通过如下几个方面着手： - **静态量化**：预先收集训练数据集上的统计信息作为依据； - **动态量化**：基于运行时获取到的实际输入特征图谱来决定量化区间； - 对于难以预估范围的激活层，则可以在前向传播过程中实时监测数值变化趋势，从而自适应设定合理的上下限边界。 ```python import torch.quantization as quantization model.eval() quantized_model = quantization.convert(model, inplace=False) ``` 上述代码片段展示了如何使用 PyTorch 的内置功能完成从原始模型到量化版本之间的转变。 #### 五、评估量化效果经过一系列优化措施之后，务必重新测试新构建出来的轻量化版模型的各项指标，比如准确性、延迟时间等，以此验证是否达到了预期目标。如果发现某些部分存在明显退步现象，则可能需要回溯至前面环节查找原因所在。