LoRA 微调一合并就“失忆”?不是模型的问题,是你的合并策略错了!
做 LoRA 微调时,好不容易训练出的小模型,一合并就“失忆”。
这不是模型的问题,是 合并策略的问题。
之前面试时这个问题难到过不少人。
记住 评估 → 合并 → 约束,就能很好解决这个问题。
🔍 第一步:操作前,先做“双维度评估”
✅ 1. 保留性测试
使用原模型擅长的任务(如通用问答、基础推理)验证 PPL(困惑度)。
-
如果合并后 PPL 高于原模型 1.2 倍以内
👉 说明“记忆未明显退化”。
✅ 2. 融合性测试
检查新任务准确率。
-
若准确率下降 不超过 5%
👉 表示特征融合稳定,可进入下一步。
⚙️ 第二步:分层合并,避免参数“打架”
❗ 问题根源
直接全量合并会导致:
-
“原任务参数” vs “新任务参数” 硬性覆盖
-
形成 知识漂移(Feature Drift)
🔧 优化策略(分层合并)
1)Q/K/V 注意力层:增量合并
70% 原参数 + 30% LoRA 参数
2)FFN 层:完整合并,但降低学习率
learning_rate ≤ 1e-5
3)嵌入层:不合并
这样做可以最大化保持模型的「原生能力」。
🛡️ 第三步:正则化约束,让 LoRA 参数“温柔地融入”
🧩 L2 正则化
限制 LoRA 权重幅度,防止覆盖原参数分布。
⏹️ 早停策略(Early Stopping)
当验证集 PPL 出现回升(过拟合信号)时立即停止训练。
-
8–12 轮通常最优
-
>20 轮常出现“遗忘曲线反弹”

4979

被折叠的 条评论
为什么被折叠?



