Examining Forgetting in Continual Pre-training of Aligned Large Language Models

828 篇文章

已下架不支持订阅

本文分析了在大型语言模型(LLM)的持续预训练过程中出现的灾难性遗忘问题,指出这可能导致模型性能下降,特别是在输出格式、知识保持和可靠性方面。实验结果显示,尽管知识受影响较小,但模型的可靠性降低,且存在重复输出的挑战。研究还讨论了资源消耗和局限于特定语言预训练的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是LLM系列文章,针对《Examining Forgetting in Continual Pre-training of Aligned Large
Language Models》的翻译。

在对齐的大型语言模型的持续预训练中检查遗忘

摘要

大型语言模型(LLM)的最新进展在各种任务中表现出了非凡的熟练度。鉴于LLM在许多领域的强大应用,LLM的发展激增。在开发LLM时,一种常见的做法是对先前微调的模型进行持续的预训练。然而,这可能导致灾难性的遗忘。在我们的工作中,我们研究了在对现有微调LLM进行持续预训练时发生的遗忘现象。我们评估了连续预训练对微调LLM的影响,包括输出格式、知识和可靠性。实验结果强调了在持续的预训练中解决灾难性遗忘的挑战,尤其是重复问题。

1 引言

2 持续预训练中灾难性遗忘的观察

3 直接的方法

4 实验

5 结论

这项工作表明,在持续的预训练中,灾难性遗忘是一个不小的挑战,无法通过简单的方法解决。此外,我们发现,当模型在持续的预训练后倾向于产生繁体中文输出时,重复问题变得更加明显。此外,经过持续的预训练,模型的知识主要不受影响;然而&#x

已下架不支持订阅

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值