深度学习系列（15）：神经网络量化技术（Quantization）详解

原创于 2025-03-16 11:10:49 发布 · 1.7k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #神经网络 #人工智能

深度学习系列专栏收录该内容

14 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

深度学习系列（15）：神经网络量化技术（Quantization）详解

在上一期中，我们介绍了神经网络剪枝技术（Pruning），以及其在模型压缩和加速推理中的应用。本期博客将深入解析神经网络量化技术（Quantization）及其在模型加速中的应用。

1. 神经网络量化简介

神经网络量化（Quantization）是通过减少神经网络中的数值精度来降低模型的计算量和存储需求。通常，神经网络的权重和激活值是使用32位浮点数表示的，而量化将这些值转换为较低位数的表示（例如8位整数）。通过这种方式，可以显著减小模型的尺寸，并加速推理过程，同时对性能影响较小。

量化的核心思想包括：

减少数值精度：将浮点数转换为较低位数的整数，从而减少存储和计算的开销。
提高推理速度：在硬件支持整数运算的情况下，量化后的模型可以使用更高效的计算资源，加速推理过程。
减小模型尺寸：量化后，模型的权重和激活值使用较少的位数表示，存储需求大大降低。

2. 量化的种类

神经网络量化方法可以分为以下几种：

权重量化（Weight Quantization）：仅对神经网络的权重进行量化，减少权重存储需求。
激活量化（Activation Quantization）：对神经网络的激活值进行量化，减少计算过程中的存储和计算开销。
混合量化（Mixed Precision Quantization）：同时对权重和激活值进行量化，以进一步减小模型的存储和计算开销。
对称量化（Symmetric Quantization）：量化过程中使用对称的量化方式，即正负数的量化步长相同。
非对称量化（Asymmetric Quantization）：量化过程中使用非对称的量化方式，即正负数的量化步长可以不同。

3. 量化的基本流程

神经网络量化的基本流程如下：

训练初始模型：首先，训练一个完整的神经网络模型，达到较好的性能。
量化感知训练（QAT）：在训练过程中引入量化操作，让模型在训练时能够适应低精度的表示，从而保持较高的准确性。
量化：对模型的权重和激活值进行量化转换，将其从浮点数转换为整数表示。
后处理和微调（Fine-tuning）：量化后，对模型进行微调，以恢复可能丢失的性能。
部署：将量化后的模型部署到目标硬件上进行推理。

4. 量化的 PyTorch 实现

PyTorch 量化工具介绍

PyTorch 提供了内置的量化工具，支持从浮点模型到低精度整数模型的转换。以下是一个简单的量化流程：

import torch
import torch.quantization

# 定义一个简单的神经网络
class SimpleNN(torch.nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.fc1 = torch.nn.Linear(10, 20)
        self.fc2 = torch.nn.Linear(20, 1)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# 创建模型并训练
model = SimpleNN()

# 设置量化配置
model.qconfig = torch.quantization.get_default_qconfig('fbgemm')
torch.quantization.prepare(model, inplace=True)

# 量化感知训练（QAT）
# 模型训练过程略

# 完成训练后，量化模型
torch.quantization.convert(model, inplace=True)

# 测试量化模型
x = torch.randn(1, 10)
output = model(x)
print(output)

在上面的代码中，我们使用 PyTorch 内置的量化工具 torch.quantization 来实现量化感知训练（QAT）和量化模型转换。

后量化调整（Post-training Quantization）

除了量化感知训练，PyTorch 还支持后量化调整，即训练后的模型进行量化。这种方法的优势是无需重新训练模型，直接在训练好的浮点模型上进行量化。

# 对训练好的浮点模型进行后量化
model = SimpleNN()
model.eval()

# 设置量化配置并进行量化
model.qconfig = torch.quantization.get_default_qconfig('fbgemm')
torch.quantization.prepare(model, inplace=True)
torch.quantization.convert(model, inplace=True)

# 测试量化后的模型
x = torch.randn(1, 10)
output = model(x)
print(output)