SFT,DPO,CPT等训练模型都是什么意思？还有其他的训练模型吗？

原创已于 2025-06-29 13:22:58 修改 · 3.7k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-03-10 16:06:10 首次发布

三种训练方式的区别

SFT（Supervised Fine-Tuning，监督微调训练）
- 原理: 采用有监督学习方式，使用人工标注的输入-输出对（如问题-答案）进行训练，让模型更符合特定任务需求。
- 适用场景: 适用于通用任务微调，如问答、翻译、代码生成等。
- 优缺点:
  - 训练数据清晰，收敛速度快，适合任务适配。
  - 依赖高质量人工标注数据，容易过拟合，不适应真实用户偏好。
DPO（Direct Preference Optimization，直接偏好优化）
- 原理: 采用人类偏好数据，通过奖励模型（Reward Model, RM）指导训练，让模型生成更符合用户偏好的结果。不同于传统 RLHF（强化学习人类反馈），DPO直接优化偏好，而不需要强化学习步骤（如 PPO）。
- 适用场景: 适用于优化模型输出质量，如减少胡言乱语（hallucination）、增加可读性或减少攻击性等。
- 优缺点:
  - 不需要复杂的强化学习过程，计算开销小。
  - 可直接使用偏好数据进行优化，提高用户满意度。
  - 需要高质量偏好数据，且偏好学习结果受数据影响大。
CPT（Continued Pre-Training，继续预训练）
- 原理: 继续在大规模无监督文本数据（如行业领域数据）上进行自回归语言建模（如GPT）或自监督训练（如BERT）。
- 适用场景: 适用于模型领域适配，如法律、医学、金融等。
- 优缺点:
  - 可以显著提升特定领域的知识掌握能力。
  - 训练成本较高，数据要求较大，可能会丢失部分通用知识。

其他训练方式

除了 SFT、DPO 和 CPT，还有一些常见的训练方法：

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）
- 方法: 结合人类反馈训练奖励模型（RM），然后使用强化学习（如 PPO）优化语言模型的输出质量。
- 适用场景: 需要严格符合人类反馈的任务，如聊天助手、道德审查、对齐训练（alignment）。
- 优缺点:
  - 可大幅优化模型输出的可控性和安全性。
  - 训练复杂，计算资源需求大。
LoRA（Low-Rank Adaptation，低秩适配）
- 方法: 通过减少训练参数的方式进行高效微调，仅更新部分权重矩阵，减少计算开销。
- 适用场景: 资源受限的情况下进行轻量化模型微调，如个性化模型定制。
- 优缺点:
  - 计算量小，可在低资源设备上进行微调。
  - 适用于增量调整，不适合大规模结构变更。
QLoRA（Quantized LoRA，量化低秩适配）
- 方法: 在 LoRA 基础上引入量化技术（如4-bit），降低计算需求并减少显存占用。
- 适用场景: 适用于在消费级 GPU（如 RTX 3090）上进行高效微调。
- 优缺点:
  - 显存占用更低，适合大模型训练。
  - 可能影响部分权重表达能力，精度下降。
P-Tuning / Prompt Tuning
- 方法: 通过优化前缀提示（prompt）而非全部模型参数，使模型在特定任务上更具表现力。
- 适用场景: 适用于任务适配，如情感分类、问答、NER等。
- 优缺点:
  - 训练成本低，可适配多个任务。
  - 适用场景较为局限。
Prefix Tuning
- 方法: 通过学习一个可训练的前缀向量，而不微调整个模型，适用于特定任务调整。
- 适用场景: 适用于多任务或低资源微调。
- 优缺点:
  - 计算量小，适合任务迁移。
  - 不适用于大规模架构调整。

总结

训练方式	训练目标	适用场景	计算开销	适应性
SFT	任务微调	QA、翻译、代码生成	中	中
DPO	优化偏好	用户满意度提升	低	高
CPT	继续预训练	特定领域适配	高	低
RLHF	任务对齐	对齐训练、道德审查	高	高
LoRA	低秩适配	资源受限微调	低	中
QLoRA	量化微调	轻量级模型优化	低	中
P-Tuning	Prompt 训练	任务适配	低	低
Prefix Tuning	前缀优化	任务迁移	低	低