大模型学习之——初步了解：量化、LoRA、QLoRA

原创于 2025-11-26 20:32:08 发布 · 998 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#LLM #量化 #LoRA #模型微调

大模型同时被 3 个专栏收录

6 篇文章

订阅专栏

LoRA

1 篇文章

订阅专栏

模型微调

1 篇文章

订阅专栏

什么是量化？

量化本质上是一种有损压缩技术。它的核心思想是用更少的比特数来表示模型参数，好比把一本高清彩色百科全书转码成压缩版黑白扫描件，体积大幅减小，虽然损失了一些色彩和细节，但核心内容得以保留。

这个过程在数学上通常通过缩放（scale） 和零点（zero_point） 两个参数，将浮点数范围的数值线性映射到整数范围。例如，将FP32（32位浮点数）量化为INT8（8位整数），模型体积可减小至约四分之一，从而显著降低内存占用并加速计算。根据应用时机，量化主要分为训练后量化（Post-Training Quantization, PTQ） 和量化感知训练（Quantization-Aware Training, QAT）

什么是LoRA?

LoRA（Low-Rank Adaptation，低秩适应）是一种用于微调大型预训练模型的技术，其核心目标是在保持模型性能的同时，大幅降低计算和存储成本。

LoRA的创新点在于它巧妙地假设模型在适应新任务时，权重的变化量（ΔW）是低秩的。这意味着，虽然原始权重矩阵很大，但它的变化可以用两个更小矩阵（A和B）的乘积来近似表示。

在具体操作上，LoRA会冻结预训练模型的所有参数，只在模型的某些层（如Transformer的注意力机制层）旁路添加一对可训练的低秩矩阵（适配器）。训练时，只更新这两个小矩阵；训练完成后，可以将适配器的权重合并回原始模型，因此推理时不会引入任何额外延迟。这是一种非常优雅的“非侵入式”微调方法。

LoRA工作原理详解

可以将LoRA理解为一个精巧的“插件”系统：

冻结主网络：预训练模型学到的通用知识被完整保留，其所有权重参数在训练过程中被固定，不做更新。
注入适配器：在模型的特定层（通常是Transformer架构中的查询Q、键K、值V等投影层）旁，并行添加一对小小的矩阵A和B。矩阵A负责降维，矩阵B负责升维，它们的乘积B·A形成了一个低秩的更新矩阵ΔW。
前向传播：在前向计算时，模型的输出变为原始输出与适配器输出之和，即 h = W0·x + (B·A)·x。
训练与合并：训练时，只优化A和B矩阵的参数。训练完成后，这个更新矩阵ΔW可以直接加到原始权重上，得到一个最终模型（W' = W0 + B·A）。因此在推理时，模型结构和计算量与原始模型完全相同，不会引入任何延迟

如果想尝试LoRA，有几个关键的超参数需要关注：

秩（r）：这是最重要的超参数，它决定了适配器矩阵的“容量”。秩越低，参数越少，但能力也可能越受限。通常从较小的值（如8, 16, 32）开始尝试。对于风格学习等简单任务，低秩可能就足够了；对于复杂的知识注入，则需要更高的秩。
Alpha（α）：这是一个缩放因子，可以理解为适配器学习率，用于控制LoRA更新对原始模型的影响程度。通常设置为 alpha = 2 * r作为一个不错的起点。
目标模块：指定将LoRA适配器添加到模型的哪些层。通常选择注意力机制中的q_proj, k_proj, v_proj, o_proj等模块

QLoRA-二者的强强联合

QLoRA的诞生是为了解决一个更极端的挑战：在单张消费级GPU上微调参数高达数百亿的大模型。它并非新技术，而是将量化和LoRA深度融合，实现了“1+1>2”的效果。

它的工作流程可以概括为以下两步：

极致量化：首先，将预训练模型的权重量化到极低的精度（如4-bit，甚至更低）。这步操作让模型在加载到显存时占用的空间变得极小。
LoRA微调：然后，在这个已被量化的模型上，应用标准的LoRA方法。这里有一个关键细节：在训练计算前，QLoRA会动态地将4-bit权重反量化回更高精度（如BF16/FP16）以进行前向和反向传播，确保计算精度，因此其最终性能损失非常小。

此外，QLoRA还引入了双重量化（对量化参数再次量化）和分页优化器（将优化器状态临时卸载到CPU内存）等技术，进一步压榨显存空间

如何选择：LoRA vs. QLoRA

了解概念后，在实际项目中该如何选择LoRA与QLoRA？

场景	推荐技术	理由
算力资源充足（多张高性能GPU）	LoRA	训练速度更快，流程更简单，无需处理量化带来的复杂性。
资源严格受限（单张消费级显卡）	QLoRA	是唯一可行的方案。它能让你在有限的硬件上微调原本不可能触碰的大模型。
对任务性能有极致要求	LoRA	避免任何因量化可能带来的微小精度损失。
快速原型验证或学术研究	QLoRA	极低的硬件门槛使得实验和探索变得更容易。

总结与关系图

三者的关系可以概括为：

量化是一种通用的模型压缩技术，用于减小模型体积和加速推理。
LoRA 是一种参数高效微调（PEFT）技术，核心是低秩适配，用于高效适配新任务。
QLoRA = 量化 + LoRA。它首先对基础模型进行量化以节省内存，然后在此基础上应用LoRA进行微调，从而在极有限的资源下实现大模型微调

简单来说，可以将量化、LoRA和QLoRA的关系，看作是一套不断升级的“模型瘦身与定制”组合技。下面这个表格能让你快速抓住它们的核心关联。

技术	核心目标	与LoRA的关系	关键创新
量化	压缩模型体积，减少内存占用，提升推理速度。	为LoRA提供更极致的内存压缩基础。	将高精度参数（如FP32）转换为低精度（如INT8/INT4），是一种模型压缩技术。
LoRA	高效微调模型，以极少的计算资源让大模型适应新任务。	基础技术。通过在原始权重旁添加低秩适配器来实现高效微调。	冻结原始模型，只训练少量新增参数，是参数高效微调的核心方法之一。
QLoRA	在资源极度受限（如单张显卡）下，实现对超大模型的微调。	LoRA的量化增强版。它结合了量化和LoRA两者的优势。	先对预训练模型进行4-bit量化，再基于量化后的模型应用LoRA进行微调

LoRA微调实战示例

通过一个代码生成助手的场景，详细说明使用LoRA微调预训练模型的全过程。

场景设定

目标：让一个通用的代码生成模型（如CodeLlama）更好地适应公司的内部代码规范和私有库API。

具体需求：

遵循公司特定的代码风格（如命名规范、注释格式）
熟练使用内部工具库的API
生成符合公司安全规范的代码

完整实施步骤

环境准备与依赖安装

# 安装必要的库
pip install transformers peft accelerate torch datasets
# 如果使用QLoRA，还需要安装bitsandbytes
pip install bitsandbytes

数据准备

创建符合公司规范的训练数据，格式为指令-代码对：

# training_data.jsonl
{
  "instruction": "使用内部认证库实现用户登录功能",
  "input": "",
  "output": "from company_auth import AuthManager\n\nclass UserLogin:\n    def __init__(self):\n        self.auth_mgr = AuthManager.get_instance()\n    \n    def authenticate_user(self, username: str, password: str) -> bool:\n        \"\"\"\n        用户认证方法\n        @param username: 用户名\n        @param password: 密码\n        @return: 认证结果\n        \"\"\"\n        try:\n            return self.auth_mgr.authenticate(username, password)\n        except AuthError as e:\n            logger.error(f\"认证失败: {e}\")\n            return False"
}

{
  "instruction": "使用内部数据库库实现安全的数据查询",
  "input": "查询用户订单数据",
  "output": "from company_db import SecureQuery\nfrom constants import MAX_ROWS_LIMIT\n\ndef get_user_orders(user_id: int) -> List[Dict]:\n    \"\"\"\n    安全查询用户订单\n    @param user_id: 用户ID\n    @return: 订单列表\n    \"\"\"\n    query = \"\"\"\n        SELECT order_id, amount, status \n        FROM orders \n        WHERE user_id = %s \n        LIMIT %s\n    \"\"\"\n    return SecureQuery.execute(\n        query, \n        params=[user_id, MAX_ROWS_LIMIT],\n        sanitize=True\n    )"
}

模型加载与LoRA配置

from transformers import AutoModelForCausalLM, AutoTokenizer, TrainingArguments
from peft import LoraConfig, get_peft_model, TaskType
import torch

# 加载基础模型和tokenizer
model_name = "codellama/CodeLlama-7b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token  # 设置pad token

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto",
    load_in_4bit=True,  # 使用QLoRA，4位量化
)

# 配置LoRA参数
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,  # 因果语言模型任务
    inference_mode=False,
    r=16,              # LoRA秩，控制适配器大小
    lora_alpha=32,     # 缩放因子
    lora_dropout=0.1,  # 防止过拟合
    target_modules=[   # 指定要添加适配器的层
        "q_proj",
        "k_proj", 
        "v_proj",
        "o_proj",
        "gate_proj",
        "up_proj",
        "down_proj",
    ],
)

# 应用LoRA配置到模型
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()  # 查看可训练参数数量

数据预处理

from datasets import Dataset

def preprocess_function(examples):
    """将指令数据格式化为模型输入"""
    prompts = []
    for i in range(len(examples['instruction'])):
        # 格式化提示词
        prompt = f"<s>[INST] {examples['instruction'][i]}\n{examples['input'][i]} [/INST]"
        prompts.append(prompt)
    
    # Tokenize
    model_inputs = tokenizer(
        prompts,
        max_length=512,
        truncation=True,
        padding="max_length",
    )
    
    # 准备标签（只计算输出部分的loss）
    labels = tokenizer(
        examples['output'],
        max_length=512,
        truncation=True, 
        padding="max_length",
    )
    
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

# 加载和预处理数据
dataset = Dataset.from_json("training_data.jsonl")
tokenized_dataset = dataset.map(preprocess_function, batched=True)

训练配置与执行

from transformers import Trainer, DataCollatorForLanguageModeling

# 训练参数配置
training_args = TrainingArguments(
    output_dir="./code-lora-output",
    per_device_train_batch_size=4,    # 根据GPU调整
    gradient_accumulation_steps=4,     # 梯度累积
    num_train_epochs=3,
    learning_rate=2e-4,               # LoRA学习率通常稍高
    fp16=True,                        # 混合精度训练
    logging_steps=10,
    save_steps=500,
    evaluation_strategy="no",
    save_total_limit=3,
    report_to="none",                  # 禁用wandb等记录
)

# 数据整理器
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,  # 不是掩码语言模型
)

# 创建Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
    data_collator=data_collator,
)

# 开始训练！
trainer.train()

# 保存LoRA适配器
trainer.save_model()

推理使用

训练完成后，有几种使用方式：

方式一：加载适配器进行推理

from peft import PeftModel

# 加载基础模型
base_model = AutoModelForCausalLM.from_pretrained(
    "codellama/CodeLlama-7b-hf",
    torch_dtype=torch.float16,
    device_map="auto",
)

# 加载LoRA适配器
model = PeftModel.from_pretrained(base_model, "./code-lora-output")

# 推理
def generate_code(instruction, input_text=""):
    prompt = f"<s>[INST] {instruction}\n{input_text} [/INST]"
    
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=256,
            temperature=0.7,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id,
        )
    
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    # 提取生成的代码部分
    generated_code = response.split("[/INST]")[-1].strip()
    return generated_code

# 测试
result = generate_code("使用内部日志库记录错误信息", "数据库连接失败")
print(result)

方式二：合并权重（获得独立模型）

# 将LoRA权重合并到基础模型中
merged_model = model.merge_and_unload()

# 保存完整模型
merged_model.save_pretrained("./company-code-llama")
tokenizer.save_pretrained("./company-code-llama")

LoRA超参数调优建议

根据场景调整关键参数：

场景类型	推荐秩(r)	学习率	Alpha	目标模块
风格适应（代码风格）	8-16	1e-4	16-32	Attention层
知识注入（API学习）	16-32	2e-4	32-64	所有线性层
复杂推理	32-64	3e-4	64-128	全网络

实际效果对比

微调前模型输出：

def login(user, pwd):
    # 简单的登录实现
    if user == "admin" and pwd == "123":
        return True
    return False

LoRA微调后输出：

from company_auth import AuthManager
from security_utils import validate_input, log_security_event

class UserAuthenticationService:
    def __init__(self):
        self.auth_manager = AuthManager.get_instance()
    
    def authenticate_user(self, username: str, password: str) -> AuthResult:
        """
        用户认证服务
        @param username: 经过验证的用户名
        @param password: 密码（将进行安全处理）
        @return: 认证结果对象
        """
        # 输入验证
        if not validate_input(username) or not validate_input(password):
            log_security_event("INVALID_INPUT", f"User: {username}")
            return AuthResult.failed("输入验证失败")
        
        try:
            result = self.auth_manager.secure_authenticate(username, password)
            log_security_event("LOGIN_ATTEMPT", f"User: {username}, Result: {result.status}")
            return result
        except Exception as e:
            logger.error(f"认证过程异常: {e}")
            return AuthResult.failed("系统异常")