李宏毅2025《机器学习》第六讲-大语言模型的后训练与遗忘问题:如何教AI新技能而不忘旧知识

大型语言模型(LLM)如Llama、Gemini和Claude,作为强大的“通才”,已经具备了广泛的基础能力。然而,在实际应用中,我们往往需要一个“专才”——一个在特定领域(如金融、法律)、特定语言(如中文、Verilog)或特定任务上表现卓越的模型。后训练(Post-training),或称持续学习(Continual Learning),正是将这些通用的“基础模型”(Foundation Model)调教成专用“微调模型”(Fine-tuned Model)的关键过程。

后训练在技术上并无新意,它沿用了我们熟悉的三种方法:

  1. 预训练式(Pre-training Style):使用特定领域的文本,让模型继续做“文字接龙”。
  2. 有监督微调式(SFT Style):使用“指令-回答”对进行训练。
  3. 强化学习式(RL Style):通过偏好数据进行优化。

尽管技术路径清晰,后训练却面临一个严峻的挑战,一个几乎所有实践者都会遇到的“诅咒”——灾难性遗忘(Catastrophic Forgetting)

一、 “手术成功,但病人死亡”:灾难性遗忘的普遍性

“灾难性遗忘”指的是模型在学习新知识或新技能后,会严重损害甚至完全丧失其原有的能力。这就像一场“成功”的外科手术,精确切除了病灶,病人却失去了所有记忆。

案例1:学习中文,忘记安全
一个常见

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值