基于LitGPT项目使用LoRA/QLoRA进行模型微调指南-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00902/article/details/148393190

基于LitGPT项目使用LoRA/QLoRA进行模型微调指南

litgpt Pretrain, finetune, deploy 20+ LLMs on your own data. Uses state-of-the-art techniques: flash attention, FSDP, 4-bit, LoRA, and more. 项目地址: https://gitcode.com/gh_mirrors/li/litgpt

前言

在大型语言模型(LLM)领域，微调(Fine-tuning)是将预训练模型适配到特定任务的关键步骤。然而，传统的全参数微调需要大量计算资源，这对大多数研究者和开发者来说是个巨大挑战。本文将详细介绍如何在LitGPT项目中使用LoRA(Low-rank Adaptation)和QLoRA技术高效地进行模型微调。

LoRA技术原理

LoRA(低秩适应)是一种创新的参数高效微调技术，其核心思想是通过低秩矩阵分解来近似线性层的权重更新。具体来说：

传统微调会直接更新原始权重矩阵W ∈ ℝ^{d×k}
LoRA则保持W不变，引入两个低秩矩阵A ∈ ℝ^{d×r}和B ∈ ℝ^{r×k}，其中r ≪ min(d,k)
前向传播变为：h = Wx + BAx

这种方法能显著减少可训练参数数量(通常可减少10000倍以上)，同时保持模型性能几乎不受影响。

准备工作

在开始微调前，需要完成以下准备工作：

环境配置：确保已安装所有必要的依赖项
模型权重：下载并转换所需的预训练模型权重，保存到指定目录
数据集准备：LitGPT支持多种常用指令数据集如Alpaca、LIMA、Dolly等，也支持自定义数据集

微调实战

基础LoRA微调

使用以下命令启动基础LoRA微调：

litgpt finetune_lora stabilityai/stablelm-base-alpha-3b --data Alpaca

此命令将在Alpaca数据集上微调StableLM 3B模型，需要至少24GB显存的GPU。

QLoRA微调(4位量化)

为进一步降低显存需求，可以使用QLoRA技术：

litgpt finetune_lora stabilityai/stablelm-base-alpha-3b \
  --quantize "bnb.nf4"

带双重量化的版本：

litgpt finetune_lora stabilityai/stablelm-base-alpha-3b \
  --quantize "bnb.nf4-dq"

性能对比

下表展示了不同设置下的资源消耗对比(StableLM 3B模型)：

| 配置 | 训练显存 | 训练时间 | 推理显存 | |------|---------|---------|---------| | 默认(bf16混合精度) | 26.92GB | 1.34分钟 | 21.43GB | | bf16纯精度 | 9.69GB | 1.24分钟 | 7.30GB | | bf16纯精度+NF4量化 | 6.35GB | 1.82分钟 | 3.20GB | | bf16纯精度+NF4双重量化 | 6.19GB | 1.87分钟 | 3.04GB |

对于更大的模型(如Llama 2 7B)，QLoRA的优势更加明显。

模型测试

微调完成后，可以使用以下命令测试模型：

litgpt generate "out/lora/final" \
  --prompt "推荐一部适合周末观看的电影"

为优化显存使用，可添加精度参数：

litgpt generate "out/lora/final" \
  --prompt "推荐一部适合周末观看的电影" \
  --precision "bf16-true" \
  --quantize "bnb.nf4"

自定义数据集微调

如需在自己的数据集上微调，需准备JSON格式的数据文件，示例结构如下：

[
    {
        "instruction": "将给定数字按升序排列",
        "input": "2, 4, 0, 8, 3",
        "output": "0, 2, 3, 4, 8"
    }
]

然后运行：

litgpt finetune_lora checkpoints/tiiuae/falcon-7b \
    --data JSON \
    --data.json_path data/mydata.json \
    --out_dir data/mydata-finetuned

LoRA权重合并(可选)

LoRA微调会生成独立的lit_model.pth.lora文件。虽然LitGPT在推理时会自动合并这些权重，但也可以手动合并以获得完整模型：

litgpt merge_lora "out/lora/step-002000"

合并后的完整模型可以脱离LitGPT环境使用，且推理速度可能有所提升。

结语

通过LoRA和QLoRA技术，我们能够在有限的计算资源下高效微调大型语言模型。LitGPT项目提供了简洁易用的接口，使这一过程更加便捷。无论是使用预置数据集还是自定义数据，都能快速获得适配特定任务的模型版本。

litgpt Pretrain, finetune, deploy 20+ LLMs on your own data. Uses state-of-the-art techniques: flash attention, FSDP, 4-bit, LoRA, and more. 项目地址: https://gitcode.com/gh_mirrors/li/litgpt

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考