7GB 显存也能训练大模型？手把手教你微调 DeepSeek-R1！

本文链接：https://blog.youkuaiyun.com/a543768773/article/details/146913124

1. 环境准备

硬件要求：至少7GB显存的GPU。
软件要求：Python 3.x、PyTorch、Unsloth等必要的库。

2. 安装必要的库

首先，安装Unsloth及其依赖项

pip install unsloth

此外，您可能需要安装其他依赖库，如vLLM、Pillow等。具体的安装命令可以参考Unsloth的官方文档。

3. 导入核心组件

在Python脚本或Jupyter Notebook中，导入必要的库并初始化Unsloth：

import torch
import unsloth
from transformers import AutoModelForCausalLM, AutoTokenizer

4. 加载基础模型

选择一个适合的基础模型，例如Llama 3.18B instruct模型。为了节省显存，可以对模型进行4位量化处理，并启用vLLM快速推理功能：

python复制编辑model_name = "Llama-3.18B-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    load_in_4bit=True,  # 启用4位量化
    device_map="auto",
    use_vllm=True       # 启用vLLM快速推理
)

请注意，4位量化和vLLM功能需要特定的硬件支持，确保您的环境兼容。

5. 配置PEFT（参数高效微调）

使用Lora方法对模型进行PEFT配置，以在有限的显存下实现高效微调：

from peft import LoraConfig, get_peft_model

lora_config = LoraConfig(
    r=32,               # Lora秩
    lora_alpha=64,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, lora_config)

6. 准备数据集

选择适合的训练数据集，例如OpenAI提供的GSM 8K数据集。该数据集包含问题和答案两列，可用于训练模型的推理能力。您可以使用Hugging Face的datasets库加载该数据集：

from datasets import load_dataset

dataset = load_dataset("gsm8k", split="train")

7. 定义奖励函数

在训练过程中，定义奖励函数以评估模型输出的质量。例如，可以根据答案的正确性、格式和标签完整性等方面进行评分：

def reward_function(output, reference):
    # 根据输出与参考答案的匹配程度计算奖励
    reward = compute_accuracy(output, reference)
    return reward

具体的奖励函数实现取决于您的任务需求和数据集特点。

8. 配置GRPO（强化学习策略优化）

设置GRPO的训练参数，包括优化器类型、学习率调度策略和梯度裁剪等：

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=8,
    gradient_accumulation_steps=4,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    learning_rate=5e-5,
    fp16=True,  # 启用混合精度训练
    optim="adamw_8bit"  # 使用8位优化器
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    tokenizer=tokenizer,
    compute_metrics=reward_function
)

9. 开始训练

启动训练过程，并监控训练进展：

trainer.train()

请注意，GRPO算法的学习曲线可能较为平缓，通常需要训练至少12个小时才能获得较好的结果。您可以根据实际情况调整训练时间和参数设置。

10. 推理测试与保存模型

训练完成后，使用测试数据评估模型的性能：

test_results = trainer.evaluate(eval_dataset=test_dataset)
print(test_results)

如果对模型表现满意，可以保存微调后的模型权重：

python复制编辑model.save_pretrained("./fine_tuned_model")
tokenizer.save_pretrained("./fine_tuned_model")