基于QwenLM/Qwen的多GPU LoRA微调实战指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00659/article/details/148374879

基于QwenLM/Qwen的多GPU LoRA微调实战指南

Qwen The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. 项目地址: https://gitcode.com/gh_mirrors/qw/Qwen

前言

在大型语言模型(LLM)领域，微调(Fine-tuning)是将预训练模型适配到特定任务的关键技术。本文将详细介绍如何使用LoRA(Low-Rank Adaptation)技术在多GPU环境下对Qwen-Chat模型进行高效微调。

技术背景

Qwen-Chat模型简介

Qwen-Chat是阿里云基于Transformer架构开发的大型语言模型，其特点包括：

基于海量多样化数据进行预训练
覆盖互联网文本、专业书籍、代码等多种数据类型
通过对齐机制构建的AI助手模型

LoRA技术原理

LoRA是一种高效的参数微调方法，其核心思想是：

冻结预训练模型的原始参数
在模型层间插入低秩适配矩阵
仅训练这些适配矩阵的参数
显著减少训练参数量和显存占用

环境准备

硬件要求

多GPU环境(建议2块及以上)
显存容量建议不低于16GB/GPU(针对Qwen-1.8B模型)

软件依赖

Python 3.8+
PyTorch 1.12+
DeepSpeed
Transformers库
Peft库

数据准备

数据集格式要求

Qwen-Chat的微调数据需要遵循特定JSON格式，支持单轮和多轮对话：

单轮对话示例：

{
  "id": "identity_0",
  "conversations": [
    {"from": "user", "value": "你好"},
    {"from": "assistant", "value": "我是一个语言模型，我叫通义千问。"}
  ]
}

多轮对话示例：

{
  "id": "identity_0",
  "conversations": [
    {"from": "user", "value": "你好，能告诉我遛狗的最佳时间吗？"},
    {"from": "assistant", "value": "当地最佳遛狗时间因地域差异而异..."},
    {"from": "user", "value": "我在纽约市。"},
    {"from": "assistant", "value": "纽约市的遛狗最佳时间通常在早晨6点至8点..."}
  ]
}

多GPU LoRA微调实战

启动训练命令解析

torchrun --nproc_per_node 2  # 使用2块GPU
    --nnodes 1               # 单节点训练
    --node_rank 0            # 节点排名
    --master_addr localhost  # 主节点地址
    --master_port 6601       # 主节点端口
    ../../finetune.py        # 训练脚本路径
    --model_name_or_path "Qwen/Qwen-1_8B-Chat/"  # 模型路径
    --data_path "Belle_sampled_qwen.json"        # 训练数据路径
    --bf16 True              # 启用BF16混合精度
    --output_dir "output_qwen"  # 输出目录
    --num_train_epochs 5     # 训练轮数
    --per_device_train_batch_size 1  # 单设备批次大小
    --gradient_accumulation_steps 16 # 梯度累积步数
    --learning_rate 1e-5     # 学习率
    --deepspeed "../../finetune/ds_config_zero2.json"  # DeepSpeed配置
    --use_lora               # 启用LoRA

关键参数说明

梯度累积：通过gradient_accumulation_steps实现大batch训练，解决显存限制
混合精度：bf16参数启用BF16格式，平衡精度和显存占用
DeepSpeed配置：使用Zero Stage 2优化显存使用
LoRA配置：默认使用rank=8的适配矩阵

权重合并与保存

LoRA训练仅保存适配器参数，使用后需合并到原模型：

from transformers import AutoModelForCausalLM
from peft import PeftModel

# 加载基础模型
model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen-1_8B-Chat/",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)

# 加载LoRA适配器
model = PeftModel.from_pretrained(model, "output_qwen/")

# 合并权重
merged_model = model.merge_and_unload()

# 保存完整模型
merged_model.save_pretrained(
    "output_qwen_merged",
    max_shard_size="2048MB",
    safe_serialization=True
)

模型测试

合并后的模型可直接用于推理：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("output_qwen_merged", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    "output_qwen_merged",
    device_map="auto",
    trust_remote_code=True
).eval()

response, history = model.chat(tokenizer, "你好", history=None)
print(response)