【LLM】8：大语言模型的量化（GPTQ、GGUF、AWQ原理）

原创已于 2024-11-10 23:50:04 修改 · 7.3k 阅读

37 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AIGC #大语言模型

于 2024-09-23 18:20:03 首次发布

LLM 专栏收录该内容

13 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

大语言模型量化的目的是减少模型的计算资源需求和存储占用，同时尽量保持模型的性能。以下是几种常见的量化方法的原理；

一、 GPTQ

GPTQ (Gradient-based Post-training Quantization)是一种基于梯度的后训练量化方法，主要目的是在减少浮点计算时尽量保持模型的性能。这种方法对大语言模型的量化尤其有效，适用于 8-bit 或更低的量化需求。

原理：

后训练量化：模型已经训练完毕，不需要重新训练，只需在训练后对权重进行量化。
梯度校正：在进行量化的过程中，GPTQ 通过优化目标函数，对量化误差进行最小化。它通过梯度优化调整量化时的权重误差，使得量化后模型的表现与未量化模型尽可能接近。
误差补偿：由于量化不可避免地引入误差，GPTQ 采用了误差反馈机制，将量化过程中产生的误差传播到后续的层进行补偿，从而减少累积误差对模型输出结果的影响。

优点：

不需要额外的训练数据，只使用训练后的模型即可。
相较于传统的直接量化方法（如固定比特宽度量化），GPTQ 的精度损失较小，特别适合复杂模型。

假设量化 LLaMA 模型，以下是一个基本的示例代码：：

# # 环境安装
# pip install transformers accelerate
# pip install git+https://github.com/qwopqwop200/GPTQ-for-LLaMa.git

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from gptq import GPTQ

# 选择模型（你可以使用 LLaMA 或其他支持的模型）
model_name = "huggingface/llama"

# 加载预训练模型和分词器
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)

# 初始化 GPTQ
quantizer = GPTQ(model)

# 设置量化位数（比如8-bit量化）
W_BITS = 8

# 开始量化模型
quantizer.quantize(w_bits=W_BITS, layer_types=["self_attn", "mlp"])

# 生成量化后的模型
quantized_model = quantizer.finish()

# 测试模型推理（生成文本）
input_text = "What is the capital of France?"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = quantized_model.generate(**inputs, max_new_tokens=20)

# 解码输出
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(decoded_output)

二、 GGUF

GGUF (Generalized Global Uniform Quantization Framework)是一种通用的全局统一量化框架，专门设计用于处理大规模神经网络。它通常采用全局统一量化策略，即对整个模型的权重或激活值采用相同的量化参数，保持模型的一致性。

原理：

全局量化：将整个模型中的所有参数统一映射到固定的范围，比如使用 8-bit 或 4-bit 表示所有的浮点数。它假设模型的所有层或某一类参数具有相似的分布，从而可以使用相同的量化范围。
均匀量化：所有的数值都被线性地映射到一个均匀的范围。这种方式计算效率高，尤其适合硬件加速器。
权重重定标：由于采用统一量化策略，GGUF 通常会引入一个缩放因子，用来在推理阶段重定标量化后的数值，以避免数值溢出或精度过低的问题。

优点：

简单且高效，适用于低延迟推理场景。
算法计算复杂度低，适合部署在资源有限的硬件上。

缺点：

由于全局采用统一的量化范围，对于模型某些权重分布极端的层来说，精度损失可能较大

演示如何对 Hugging Face 上的 GPT-2 模型进行 8-bit 全局统一量化

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from torch.quantization import QuantStub, DeQuantStub, quantize_dynamic

# 加载 GPT2 模型和分词器
model_name = "gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

# 打印原始模型的大小
print(f"Original model size: {model.num_parameters()} parameters")

# 模型准备：将全局所有层量化（使用动态量化）
quantized_model = quantize_dynamic(
    model,  # 要量化的模型
    {torch.nn.Linear},  # 量化哪些层（这里是线性层）
    dtype=torch.qint8  # 量化数据类型，这里使用 8-bit 量化
)

# 打印量化后的模型大小
print(f"Quantized model size: {sum(p.numel() for p in quantized_model.parameters())} parameters")

# 测试量化后的模型生成文本
input_text = "Once upon a time"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = quantized_model.generate(**inputs, max_new_tokens=50)

# 解码输出
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Generated text:", generated_text)

三、 AWQ

AWQ (Activation-aware Quantization)是一种关注激活值的量化方法，主要在量化过程中考虑了激活值分布对模型性能的影响。这种方法通过分析激活值的分布特性，在量化过程中对激活值进行适应性处理，从而提高量化后模型的准确性。

原理：

激活值感知：在对权重进行量化的同时，AWQ 也会对每一层的激活值分布进行分析。在某些层，激活值可能呈现出不均匀或长尾分布，导致量化过程中精度下降。AWQ 对这些激活值分布进行感知并自适应调整量化策略。
非均匀量化：在量化激活值时，AWQ 并不采用线性均匀量化，而是针对不同的激活值范围选择不同的量化尺度。这样可以更好地捕捉激活值的细节，减少量化误差。
动态缩放：通过动态调整每层的量化缩放因子，使得量化后的激活值分布尽量保持和原始模型一致。

优点：

在模型的不同层次灵活调整量化策略，减少精度损失。
适合模型推理阶段需要高精度的场景。

缺点：

相比全局统一量化，计算复杂度略高，可能需要更多的计算资源。

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from torch.quantization import QuantStub, DeQuantStub, prepare_qat, convert

# 加载 GPT-2 模型和分词器
model_name = "gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

# 定义量化模块
class QuantizedGPT2(torch.nn.Module):
    def __init__(self, model):
        super(QuantizedGPT2, self).__init__()
        self.quant = QuantStub()  # 用于激活值的量化
        self.model = model
        self.dequant = DeQuantStub()  # 用于激活值的反量化
    
    def forward(self, input_ids):
        # 对输入的激活值进行量化
        quantized_inputs = self.quant(input_ids)
        outputs = self.model(input_ids=quantized_inputs)
        # 对输出进行反量化
        return self.dequant(outputs.logits)

# 将模型包装在量化模块中
quantized_model = QuantizedGPT2(model)

# 量化感知训练准备（QAT）
quantized_model.qconfig = torch.quantization.get_default_qat_qconfig('fbgemm')

# 准备 QAT
quantized_model = prepare_qat(quantized_model, inplace=True)

# 模拟训练（可以加载现有权重并继续训练）
# 这里使用了一些样本数据
input_text = "What is the capital of France?"
inputs = tokenizer(input_text, return_tensors="pt")['input_ids']
quantized_model.train()

for _ in range(10):  # 模拟训练步骤
    outputs = quantized_model(inputs)
    loss = torch.nn.functional.cross_entropy(outputs.view(-1, outputs.size(-1)), inputs.view(-1))
    loss.backward()

# 完成量化
quantized_model.eval()
quantized_model = convert(quantized_model)

# 测试量化后的模型
with torch.no_grad():
    outputs = quantized_model(inputs)

generated_text = tokenizer.decode(outputs[0].argmax(dim=-1), skip_special_tokens=True)
print("Generated text:", generated_text)