从基础到对齐：用trl实现SFT+DPO两阶段训练完整指南-优快云博客

从基础到对齐：用trl实现SFT+DPO两阶段训练完整指南

【免费下载链接】trl 项目地址: https://gitcode.com/gh_mirrors/trl/trl

还在为AI模型输出质量参差不齐而烦恼？想让你的语言模型既懂知识又会听话？本文将带你通过trl框架的SFT（监督微调）+DPO（直接偏好优化）两阶段训练流程，从零开始打造一个既专业又贴心的AI助手。读完你将掌握：

用SFT为模型注入专业知识的具体步骤
通过DPO让模型理解人类偏好的实用技巧
两阶段训练的完整代码实现与参数调优方法

为什么需要两阶段训练？

传统的语言模型训练往往面临两难：要么专注于知识学习导致输出不受控，要么强调对齐导致知识遗忘。trl框架的SFT+DPO两阶段训练完美解决了这个矛盾：

mermaid

SFT（监督微调，Supervised Fine-Tuning）阶段通过高质量标注数据让模型学习特定领域知识，对应源码实现位于trl/trainer/sft_trainer.py。DPO（直接偏好优化，Direct Preference Optimization）阶段则通过人类偏好数据调整模型输出风格，核心代码在trl/trainer/dpo_trainer.py。

第一阶段：SFT监督微调

SFT就像给模型上专业课，通过精心准备的教材（高质量数据集）系统传授知识。下面是实现SFT训练的完整流程：

准备工作

首先确保你已克隆项目仓库：

git clone https://gitcode.com/gh_mirrors/trl/trl
cd trl

基础SFT训练

trl提供了开箱即用的SFT训练脚本examples/scripts/sft.py，基础训练命令如下：

python examples/scripts/sft.py \
    --model_name_or_path="facebook/opt-350m" \
    --dataset_name="timdettmers/openassistant-guanaco" \
    --dataset_text_field="text" \
    --learning_rate=1.41e-5 \
    --per_device_train_batch_size=64 \
    --gradient_accumulation_steps=16 \
    --output_dir="sft_openassistant-guanaco" \
    --num_train_epochs=3 \
    --logging_steps=1 \
    --gradient_checkpointing

这个命令会加载OPT-350M模型，使用OpenAssistant-Guanaco数据集进行3个epoch的训练，关键参数说明：

参数	作用	推荐值
learning_rate	学习率	1e-5 ~ 2e-5
per_device_train_batch_size	单设备批次大小	16 ~ 64（视GPU内存而定）
gradient_accumulation_steps	梯度累积步数	4 ~ 16
num_train_epochs	训练轮数	2 ~ 5

高效训练技巧：LoRA微调

当你使用大模型（如7B以上）时，推荐使用LoRA（Low-Rank Adaptation）技术进行参数高效微调，只需添加以下参数：

python examples/scripts/sft.py \
    # 其他参数不变...
    --use_peft \
    --lora_r=64 \
    --lora_alpha=16

这种方式只会更新少量适配器参数，将GPU内存需求降低70%以上。trl/trainer/sft_trainer.py中第255-265行实现了PeftModel的初始化逻辑，自动处理LoRA适配器的创建与训练。

SFT训练后的模型保存

训练完成后，模型会保存到指定的output_dir目录，包含以下文件：

模型权重（pytorch_model.bin或adapter_model.bin）
配置文件（config.json）
分词器（tokenizer_config.json等）

这些文件将作为DPO阶段的输入。

第二阶段：DPO偏好对齐

如果说SFT让模型"学知识"，那DPO就是教模型"懂礼貌"。通过人类偏好数据（包含"好回答"和"坏回答"的对比样本），DPO能让模型理解什么是优质输出。

DPO工作原理

DPO的核心思想是直接优化模型参数，使模型更偏好人类喜欢的回答。其损失函数实现位于trl/trainer/dpo_trainer.py，公式如下：

loss = -log(sigmoid(beta * (log_p(chosen) - log_p(rejected))))

其中chosen是人类偏好的回答，rejected是不偏好的回答，beta是控制偏好强度的超参数。

准备DPO数据集

DPO需要特殊格式的偏好数据集，每个样本包含：

prompt：用户输入
chosen：优质回答
rejected：劣质回答

trl提供了处理这类数据的示例代码examples/scripts/dpo.py，关键数据处理逻辑：

def process(row):
    row["prompt"] = tokenizer.apply_chat_template(row["chosen"][:-1], tokenize=False)
    row["chosen"] = tokenizer.apply_chat_template([row["chosen"][-1]], tokenize=False)
    row["rejected"] = tokenizer.apply_chat_template([row["rejected"][-1]], tokenize=False)
    return row

运行DPO训练

使用SFT阶段保存的模型作为初始化，启动DPO训练：

python examples/scripts/dpo.py \
    --model_name_or_path="./sft_openassistant-guanaco" \
    --dataset_name="trl-internal-testing/hh-rlhf-helpful-base-trl-style" \
    --per_device_train_batch_size=4 \
    --learning_rate=1e-3 \
    --gradient_accumulation_steps=1 \
    --output_dir="dpo_anthropic_hh" \
    --warmup_steps=150 \
    --logging_steps=10 \
    --bf16

关键参数说明：

参数	作用	推荐值
learning_rate	DPO学习率	1e-4 ~ 1e-3（通常比SFT大）
beta	偏好强度系数	0.1 ~ 0.5
warmup_steps	预热步数	100 ~ 500

使用LoRA进行高效DPO训练

对于大模型，同样推荐使用LoRA进行DPO训练，只需添加LoRA相关参数：

python examples/scripts/dpo.py \
    # 其他参数不变...
    --use_peft \
    --lora_r=16 \
    --lora_alpha=16

这种方式可以在消费级GPU上微调7B甚至13B模型，trl/trainer/dpo_trainer.py实现了PeftModel与DPO的无缝集成。

完整训练流程图

mermaid

常见问题与解决方案

训练不稳定怎么办？

如果损失波动过大，尝试：

减小学习率（尤其是DPO阶段）
增加批量大小（通过gradient_accumulation_steps）
启用梯度检查点（--gradient_checkpointing）

这些技巧在examples/scripts/sft.py和examples/scripts/dpo.py的示例命令中都有体现。

如何评估训练效果？

推荐使用两种评估方式：

自动评估：使用examples/research_projects/toxicity/scripts/evaluate-toxicity.py评估安全性
人工评估：抽样生成结果进行人工对比打分

显存不足如何解决？

除了LoRA技术外，还可以：

使用4bit/8bit量化（添加--load_in_4bit参数）
减小max_seq_length（推荐1024以内）
使用梯度检查点（节省50%显存）

总结与后续步骤

通过本文介绍的SFT+DPO两阶段训练流程，你已经掌握了打造高质量语言模型的核心技术。下一步可以尝试：

探索更先进的对齐算法，如examples/scripts/cpo.py实现的CPO（对比偏好优化）
尝试多轮对话优化，使用examples/scripts/chat.py进行交互测试
深入研究trl/trainer目录下的各种训练器实现，定制自己的训练策略

希望这篇指南能帮助你训练出既专业又贴心的AI模型！如果觉得有用，请点赞收藏，关注后续更深入的trl高级用法教程。

【免费下载链接】trl 项目地址: https://gitcode.com/gh_mirrors/trl/trl

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考