GPT-2 模型动态量化实战：一键压缩为 INT8 权重，提升部署效率

本文基于 quantize_model.py 脚本，讲解如何对 GPT-2 Student 模型执行 PyTorch 动态量化（Dynamic Quantization），压缩权重为 INT8 格式，从而加速推理、降低部署资源占用，并最终保存为 PyTorch 可加载格式，适用于 API 服务或边缘部署。

🎯 什么是动态量化（Dynamic Quantization）？

将部分神经网络层（如 Linear）在不重训练的情况下，压缩为更低精度（如 INT8）进行推理。

特点：

✅ 不需重新训练
✅ 推理阶段精度略降但速度显著提升
✅ 常用于 CPU 上的推理加速（如边缘部署、API 服务）

🗂️ 文件说明

脚本文件：quantize_model.py
输入路径：../python3_distillation/gpt2_student_v2
输出路径：./gpt2_student_v2_quantized/

1️⃣ 加载原始小模型（float32 权重）

from transformers import GPT2LMHeadModel

model_path = "../python3_distillation/gpt2_student_v2"
model = GPT2LMHeadModel.from_pretrained(model_path)
model.eval()

说明：

加载结构与权重
进入 eval() 模式关闭 Dropout，确保推理稳定

2️⃣ 执行动态量化（仅 Linear 层）

import torch

quantized_model = torch.quantization.quantize_dynamic(
    model,
    {torch.nn.Linear},   # ✅ 仅量化全连接层
    dtype=torch.qint8    # ✅ 使用 INT8 权重
)

动态量化流程：

替换 nn.Linear → quantized.Linear
权重变为 INT8
不影响结构兼容性（保持 GPT2 模型）

3️⃣ 保存量化模型

import os
save_path = "./gpt2_student_v2_quantized"
os.makedirs(save_path, exist_ok=True)

# 保存权重（仅参数，不含结构）
torch.save(quantized_model.state_dict(), f"{save_path}/pytorch_model.bin")

# 拷贝原始 config.json
import shutil
shutil.copy(f"{model_path}/config.json", f"{save_path}/config.json")

说明：

PyTorch 保存权重需配合结构加载器
from_pretrained + load_state_dict 是恢复量化模型的正确流程（见第 2 篇）

✅ 动态量化 vs 静态量化 vs QAT

模型压缩方式	是否需重训	支持平台	精度影响	优点
动态量化（本篇）	否	✅ CPU	小	简单快捷
静态量化	否	CPU/Edge	中	精度更稳定
量化感知训练 QAT	✅ 需要	全平台	最低	精度最高，耗时大