什么是 SFT、DPO、CPT

最新推荐文章于 2025-11-14 16:07:48 发布

原创最新推荐文章于 2025-11-14 16:07:48 发布 · 776 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #深度学习 #机器学习

部署运行你感兴趣的模型镜像

SFT、DPO、CPT 这三个概念，它们都是在大语言模型（LLM）训练和对齐过程中常见的方法，但目的和方式不一样。

⸻

SFT（Supervised Fine-Tuning，监督式微调）

定义：
SFT 是在一个已经预训练过的大模型（通常是语言模型）上，利用人工标注的高质量指令-回复数据集进行监督学习的过程。

特点：
• 数据集是人工或人工审核过的，通常成对（prompt → answer）。
• 训练目标是让模型输出尽量接近人工标注的答案。
• 常用于第一步对齐：让大模型从“通用预测下一个词” → “能回答人类指令”。

举例：
• 给模型一个问题：“如何写一封求职邮件？”
• 人类标注的高质量答案作为标签。
• 模型在训练时学习模仿人类的这种输出。

优缺点：
• 优点：效果直观，能快速把模型调整到能“像人一样回答问题”。
• 缺点：标注数据成本高，且模型只会“模仿”，没有价值偏好或对齐保证。

⸻

DPO（Direct Preference Optimization，直接偏好优化）

定义：
DPO 是一种基于人类偏好（Human Preference）的对齐方法，它是 RLHF（强化学习人类反馈）的改进。

过程：
1. 收集成对的回答：比如同一个问题，模型生成两个不同答案。
2. 人类（或偏好模型）标注：哪个答案更好。
3. DPO 通过一个数学公式，把这种“偏好”转化成模型的优化目标，直接更新参数。

特点：
• 不需要训练一个单独的奖励模型（避免了 RLHF 中 reward model 的复杂性）。
• 更稳定、更高效，训练收敛速度快。
• 本质上是让模型学会：“在相似问题下，尽量生成被人类偏好的那个答案”。

举例：
• 提问：“给我写一段儿童能懂的黑洞解释。”
• 模型 A 回答太复杂，模型 B 回答生动易懂。
• 人类选择 B，DPO 会优化模型参数，让它未来更倾向于生成类似 B 的答案。

优缺点：
• 优点：效果好，训练更简单，比 RLHF 稳定。
• 缺点：仍然依赖人工偏好数据，且需要多答案对比数据。

⸻

CPT（Continual Pre-Training，持续预训练）

定义：
CPT 指在一个已经预训练的语言模型上，继续使用新的大规模无监督语料进行预训练。

特点：
• 数据集不是人工标注的，而是网络文本、垂直行业数据、领域文档等。
• 目标还是预测下一个词（LM objective），而不是监督任务。
• 主要用于模型的知识迁移或领域适配。

举例：
• 你有一个通用大模型，但想让它在医学领域更强。
• 你收集了大量医学文献、病例报告，用它们对模型做 CPT。
• 结果：模型的医学知识更丰富，但对齐（alignment）层面没变化。

优缺点：
• 优点：简单有效，可以快速给模型“加知识”。
• 缺点：不能保证模型学会更好的指令遵循或价值对齐。

⸻

🔑 总结对比

方法数据来源训练目标适用场景优点缺点
SFT 人工标注的 prompt-答复对模仿人类答案指令微调、对齐基础简单直观，能快速对齐依赖高质量标注，覆盖有限
DPO 人类偏好（答案对比数据）优化人类偏好概率对齐优化（比 RLHF 更简洁）稳定高效，效果好需要成对偏好数据
CPT 无监督文本（行业/领域语料）预测下一个词知识补充，领域适配简单有效，扩展知识无法对齐价值观或风格

⸻

👉 可以这么理解：
• CPT = 给模型“补知识”。
• SFT = 教模型“如何听懂并回答问题”。
• DPO = 教模型“怎么回答才更符合人类偏好”。

⸻

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话

Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型，这一代在各个方面都进行了全面升级：更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力，以及更强的代理交互能力

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

MonkeyKing.sun 对你有帮助的话，可以打赏

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。