本文是LLM系列文章,针对《Examining Forgetting in Continual Pre-training of Aligned Large
Language Models》的翻译。
摘要
大型语言模型(LLM)的最新进展在各种任务中表现出了非凡的熟练度。鉴于LLM在许多领域的强大应用,LLM的发展激增。在开发LLM时,一种常见的做法是对先前微调的模型进行持续的预训练。然而,这可能导致灾难性的遗忘。在我们的工作中,我们研究了在对现有微调LLM进行持续预训练时发生的遗忘现象。我们评估了连续预训练对微调LLM的影响,包括输出格式、知识和可靠性。实验结果强调了在持续的预训练中解决灾难性遗忘的挑战,尤其是重复问题。
1 引言
2 持续预训练中灾难性遗忘的观察
3 直接的方法
4 实验
5 结论
这项工作表明,在持续的预训练中,灾难性遗忘是一个不小的挑战,无法通过简单的方法解决。此外,我们发现,当模型在持续的预训练后倾向于产生繁体中文输出时,重复问题变得更加明显。此外,经过持续的预训练,模型的知识主要不受影响;然而,其可靠性下降。
局限性
一个值得注意的限制来自持续预训练LLM的资源密集型,这使得复制本工作中概述的所有直接的持续预训练方法具有挑战性。另一个重要的限制是,我们只使用传统汉语语料库进行持续的预训练
本文分析了在大型语言模型(LLM)的持续预训练过程中出现的灾难性遗忘问题,指出这可能导致模型性能下降,特别是在输出格式、知识保持和可靠性方面。实验结果显示,尽管知识受影响较小,但模型的可靠性降低,且存在重复输出的挑战。研究还讨论了资源消耗和局限于特定语言预训练的局限性。
已下架不支持订阅
1135

被折叠的 条评论
为什么被折叠?



