-
研究背景:
大型语言模型(LLMs)在自然语言处理领域中扮演着越来越重要的角色,它们通常在大量语言数据上进行预训练,以便在特定下游任务上进行微调。然而,微调过程中存在一个被称为“灾难性遗忘”的问题,即模型在适应新任务时可能会忘记之前学到的知识。尽管有研究关注LLMs在微调时的遗忘现象,但关于常见微调方法如何影响遗忘的了解仍然有限。
-
过去方案和缺点:
以往的研究主要集中在如何减少遗忘,例如通过正则化方法、集成学习和参数隔离方法来缓解遗忘。然而,这些方法在实际应用中可能存在局限性,例如在微调大型模型时可能需要大量的计算资源。此外,过去的研究没有充分考虑微调过程中参数数量和训练步骤对遗忘的具体影响。 -
本文方案和步骤:
本文研究了在微调预训练的大型语言模型时遗忘的问题,并量化了这一现象。作者使用了参数高效的微调(PEFT)策略,如低秩适配器(LoRA),并发现这些策略仍然会受到灾难性遗忘的影响。研究者通过LoRA对Llama 2 7B聊天模型进行了微调,并评估了遗忘作为预训练模型预测变化的度量。他们还提出了遗忘与微调损失之间的强逆线性关系,并获得了遗忘随着微调参数数量和更新步骤的增加而增加的精确缩放定律。 -
本文实验和性能:
实验结果表明,遗忘与微调损失之间存在强烈的预测关系,且遗忘和微调损失都与微调参数数量和训练步骤呈幂律关系。研究还揭示了遗忘对知识、推理以及训练到Llama 2 7B聊天模型中的安全防护措施的影响。实验结果表明,通过提前停止训练或改变微调参数数量无法避免遗忘。这些发现为未来研究提供了一个重要的安全关键方向,即评估和发展减轻遗忘的微调方案。
阅读总结报告:
本文通过实证研究,揭示了在微调大型语言模型时遗忘现象的普遍性和严重性。作者不仅量化了遗忘,还提出了遗忘与微调损失、参数数量和训练步骤之间的关系。这些发现对于理解微调过程中的知识保留至关重要,并为开发新的微调技术以减轻遗忘提供了理论基础。尽管遗忘似乎是微调过程中不可避免的一部分,但这些研究结果强调了在设计微调策略时考虑遗忘的重要性,并为未来的研究方向提供了指导。
注1:
在论文 “Scaling Laws for Forgetting When Fine-Tuning Large Language Models” 中,作者研究了在微调大型语言模型(LLMs)时遗忘现象的量化关系。以下是遗忘与微调损失、参数数量和训练步骤之间关系的详细说明:
-
遗忘与微调损失的关系:
研究发现,遗忘损失(Forgetting Loss)与微调损失(Fine-Tuning Loss)之间存在强烈的逆线性关系。这意味着,当模型在微调数据集上的性能(损失)提高时,遗忘现象(即模型忘记其预训练知识的程度)也会增加。这种关系在不同的数据集和微调设置中都是一致的。 -
遗忘与参数数量的关系:
遗忘损失还与微调过程中调整的参数数量有关。研究发现,遗忘损失随着微调参数数量的增加而增加。这表明,当更多的参数被微调时,模型更容易忘记其在预训练阶段学到的知识。 -
遗忘与训练步骤的关系:
遗忘损失也与微调过程中的训练步骤(即更新步骤)有关。研究显示,随着训练步骤的增加,遗忘损失也会增加。这意味着,随着模型在微调过程中看到的样本数量增加,遗忘现象也会变得更加严重。 -
缩放定律:
作者进一步提出了遗忘损失的缩放定律,表明遗忘损失随着微调参数数量和训练步骤的增加而呈幂律关系增加。这意味着遗忘损失的增加速度超过了参数数量和训练步骤的线性增长。具体来说,遗忘损失可以表示为微调损失的线性函数,以及参数数量和训练步骤的幂律函数。
这些发现揭示了微调过程中遗忘现象的普遍性和严重性,并指出了在微调大型语言模型时需要考虑的关键因素。这些关系对于理解微调过程中的知识保留至关重要,并为开发新的微调技术以减轻遗忘提供了理论基础。