大型语言模型(LLM)如Llama、Gemini和Claude,作为强大的“通才”,已经具备了广泛的基础能力。然而,在实际应用中,我们往往需要一个“专才”——一个在特定领域(如金融、法律)、特定语言(如中文、Verilog)或特定任务上表现卓越的模型。后训练(Post-training),或称持续学习(Continual Learning),正是将这些通用的“基础模型”(Foundation Model)调教成专用“微调模型”(Fine-tuned Model)的关键过程。
后训练在技术上并无新意,它沿用了我们熟悉的三种方法:
- 预训练式(Pre-training Style):使用特定领域的文本,让模型继续做“文字接龙”。
- 有监督微调式(SFT Style):使用“指令-回答”对进行训练。
- 强化学习式(RL Style):通过偏好数据进行优化。
尽管技术路径清晰,后训练却面临一个严峻的挑战,一个几乎所有实践者都会遇到的“诅咒”——灾难性遗忘(Catastrophic Forgetting)。
一、 “手术成功,但病人死亡”:灾难性遗忘的普遍性
“灾难性遗忘”指的是模型在学习新知识或新技能后,会严重损害甚至完全丧失其原有的能力。这就像一场“成功”的外科手术,精确切除了病灶,病人却失去了所有记忆。
案例1:学习中文,忘记安全
一个常见
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



