QwenLM/Qwen 大模型QLoRA单GPU微调实战指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00574/article/details/148374893

QwenLM/Qwen 大模型QLoRA单GPU微调实战指南

Qwen The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. 项目地址: https://gitcode.com/gh_mirrors/qw/Qwen

前言

在当今大模型技术快速发展的背景下，如何高效地对大型语言模型进行微调成为了一个重要课题。本文将详细介绍如何使用QLoRA技术在单GPU环境下对Qwen-1.8B-Chat模型进行微调，这是一种资源高效的参数高效微调方法。

QLoRA技术简介

QLoRA(Quantized Low-Rank Adaptation)是LoRA(Low-Rank Adaptation)技术的量化版本，它通过以下创新点实现了高效微调：

4-bit量化：将预训练模型量化为4-bit精度，大幅减少内存占用
低秩适配：仅训练少量低秩矩阵，而非整个模型参数
权重解量化：在训练时临时将量化权重解压为计算精度

这种技术组合使得在消费级GPU上微调大型语言模型成为可能。

环境准备

硬件要求

显存：至少12GB (推荐16GB以上)
内存：建议32GB以上
存储：至少10GB可用空间

软件依赖

需要安装以下Python包：

transformers
peft
deepspeed
modelscope
torch (支持CUDA版本)

建议使用Python 3.8或更高版本。

模型与数据准备

下载Qwen-1.8B-Chat-Int4模型

Qwen-1.8B-Chat是通义千问系列中的18亿参数对话模型，Int4版本经过4-bit量化处理，特别适合资源受限环境下的微调。

from modelscope.hub.snapshot_download import snapshot_download
model_dir = snapshot_download('Qwen/Qwen-1_8B-Chat-Int4', cache_dir='.')

准备训练数据

训练数据应采用对话格式，每条记录包含多轮对话。示例数据格式如下：

[
  {
    "id": "identity_0",
    "conversations": [
      {"from": "user", "value": "你好"},
      {"from": "assistant", "value": "我是一个语言模型，我叫通义千问。"}
    ]
  }
]

对于多轮对话，可以扩展为：

[
  {
    "id": "identity_0",
    "conversations": [
      {"from": "user", "value": "你好，能告诉我遛狗的最佳时间吗？"},
      {"from": "assistant", "value": "当地最佳遛狗时间因地域差异而异..."},
      {"from": "user", "value": "我在纽约市。"},
      {"from": "assistant", "value": "纽约市的遛狗最佳时间通常在早晨6点至8点..."}
    ]
  }
]

微调执行

使用以下命令启动微调过程：

python finetune.py \
    --model_name_or_path "Qwen/Qwen-1_8B-Chat-Int4/" \
    --data_path "Belle_sampled_qwen.json" \
    --bf16 \
    --output_dir "output_qwen" \
    --num_train_epochs 5 \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 16 \
    --learning_rate 1e-5 \
    --model_max_length 512 \
    --use_lora \
    --q_lora \
    --deepspeed "ds_config_zero2.json"

关键参数解析

bf16：使用bfloat16混合精度训练，减少显存占用
gradient_accumulation_steps：梯度累积步数，模拟更大batch size
use_lora & q_lora：启用QLoRA微调模式
deepspeed：使用DeepSpeed的ZeRO-2优化策略

权重合并

QLoRA训练仅保存适配器参数，使用前需要与原模型合并：

from transformers import AutoModelForCausalLM
from peft import PeftModel

# 加载原始模型(非量化版本)
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-1_8B-Chat/", 
    torch_dtype=torch.float16, 
    device_map="auto",
    trust_remote_code=True
)

# 加载适配器并合并
model = PeftModel.from_pretrained(model, "output_qwen/")
merged_model = model.merge_and_unload()

# 保存合并后的模型
merged_model.save_pretrained("output_qwen_merged", max_shard_size="2048MB")

注意：必须使用非量化版本的原始模型进行合并。

模型测试

合并后的模型可以像普通模型一样使用：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("output_qwen_merged", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "output_qwen_merged",
    device_map="auto",
    trust_remote_code=True
).eval()

response, history = model.chat(tokenizer, "你好", history=None)
print(response)