大模型微调方法全景图：从 SFT 到 LoRA 再到 DPO

最新推荐文章于 2025-09-26 02:39:47 发布

原创最新推荐文章于 2025-09-26 02:39:47 发布 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #机器学习

AI 专栏收录该内容

165 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

在大语言模型（LLM）日益普及的今天，企业和开发者都面临一个现实问题：如何在基础模型之上进行高效、经济且有效的定制化微调。本文将带你理清当前主流的微调方法——SFT（监督微调）、LoRA（低秩适配）、DPO（直接偏好优化）——它们的核心原理、适用场景以及背后的范式差异，构建一幅大模型微调方法的全景图谱。

🧩 第一阶段：SFT，微调的起点

Supervised Fine-Tuning（SFT） 是微调的“祖师爷”，直接在基础模型上继续训练，使用的是带标签的输入-输出对数据集（如问答、摘要、代码生成等）。

🧠 原理简述：

给定 prompt，SFT 让模型学会输出“正确答案”。

训练目标为最小化输出与目标答案之间的交叉熵损失。

✅ 适用场景：

初始对齐（alignment）任务，如让 LLM 具备医疗、法律等专业知识；
数据集明确、有强标签（如 Alpaca、ShareGPT）；
模型刚刚训练完，需要过渡到 RLHF 流程的第一步。

⚠️ 局限性：

对生成质量提升有限；
依赖高质量有标签数据；
无法从“多个答案中更优”学习偏好。

🧪 第二阶段：LoRA，参数高效微调之王

LoRA（Low-Rank Adaptation） 提出了一种“只微调少量参数”的方法，极大节省算力和存储开销。

🧠 原理简述：

冻结原始模型参数，仅在权重矩阵中添加低秩矩阵作为“增量补丁”。

比如将一个大的权重矩阵 W 拆为 W + ΔW，其中 ΔW = A·B，且 A、B 的秩远小于 W。

✅ 适用场景：

算力受限场景（尤其适用于中小企业）；
多任务/多版本模型定制（如金融版、政务版）；
部署多个 LoRA Adapter 实现“按需加载”。

💡 实战亮点：

适配 Hugging Face 的 PEFT 库；
与 QLoRA 结合能进一步节省 GPU 资源；
通常只需微调百万级参数（不到全参数 1%）。

🧭 第三阶段：DPO，强化学习之外的偏好优化

在传统的 RLHF 中，模型要经过：

SFT；
奖励模型训练；
PPO（Proximal Policy Optimization）。

而 DPO（Direct Preference Optimization） 直接跳过了强化学习这一步。

🧠 原理简述：

给定一对回答（优、劣），最大化模型对“优答案”的概率，最小化对“劣答案”的概率。

目标函数源自最大熵反向强化学习，但通过对数似然形式重写，无需环境、策略梯度等复杂机制。

✅ 适用场景：

拥有偏好标注对数据（如 ChatGPT 反馈数据、人工打分）；
想在不使用 RL 的情况下提升模型对齐性；
构建更人类偏好的 Assistant/Agent 系统。

🧠 与 SFT 的关键差异：

对比项	SFT	DPO
输入	prompt + target	prompt + (preferred, rejected)
学习目标	模拟输出	优化偏好
学习方式	最大似然	偏好差值最大化
能力提升	生成基本正确	更“讨好人类”

🧮 一图梳理：大模型微调方法谱系

graph TD
A[基础预训练模型] --> B[SFT（监督微调）]
B --> C[LoRA（参数高效微调）]
B --> D[PPO（强化学习对齐）]
D --> E[DPO（偏好优化简化版）]

🧠 如何选择微调策略？

需求/限制	推荐策略
数据量较小，有标签明确	SFT
需要节省算力/存储	LoRA / QLoRA
想优化人类偏好、不使用RL	DPO
多任务、多场景复用	LoRA + 多Adapter
极致效果、预算充足	SFT → PPO（RLHF）全流程