-
研究背景:
大型语言模型(LLMs)在自然语言处理领域中扮演着越来越重要的角色,它们通常在大量语言数据上进行预训练,以便在特定下游任务上进行微调。然而,微调过程中存在一个被称为“灾难性遗忘”的问题,即模型在适应新任务时可能会忘记之前学到的知识。尽管有研究关注LLMs在微调时的遗忘现象,但关于常见微调方法如何影响遗忘的了解仍然有限。
-
过去方案和缺点:
以往的研究主要集中在如何减少遗忘,例如通过正则化方法、集成学习和参数隔离方法来缓解遗忘。然而,这些方法在实际应用中可能存在局限性,例如在微调大型模型时可能需要大量的计算资源。此外,过去的研究没有充分考虑微调过程中参数数量和训练步骤对遗忘的具体影响。 -
本文方案和步骤:
本文研究了在微调预训练的大型语言模型时遗忘的问题,并量化了这一现象。作者使用了参数高效的微调(PEFT)策略,如低秩适配器(LoRA),并发现这些策略仍然会受到灾难性遗忘的影响。研究者通过LoRA对Llama 2 7B聊天模型进行了微调,并评估了遗忘作为预训练模型预测变化的度量。他们还提出了遗忘与微调损失之间的强逆线性关系,并获得了遗忘随着微调参数数量和更新步骤的增加而增加的精确缩放定律。 -
本文实验和性能:
实验结果表明,遗忘与微调损失之间存在强烈的预测关系,且遗忘和微调损失都与微调参数数量和训练步骤呈幂律关系。研究还揭示了遗忘对知识、推理以及训练到Llama 2 7B聊天模型中的安全防护措施的影响。实验结果表明,通过提前停止训练或改变微调参数数量无法避免遗忘。这些发现为未来研究提供了一个重要的安全关键方向,即评估和发展减轻遗忘的微调方案。
阅读总结报告:
本文通过实证研究,揭示了在微调大型语言模型时遗忘现象的普遍性和严重性。作者不仅量化了遗忘,还提出了遗忘与微调损失、参数数量和训练步骤之间的关系。这些发现对于理解微调过程中的知