Examining Forgetting in Continual Pre-training of Aligned Large Language Models

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量371

点赞数 11

CC 4.0 BY-SA版权

文章标签：语言模型人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/136155505

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文分析了在大型语言模型（LLM）的持续预训练过程中出现的灾难性遗忘问题，指出这可能导致模型性能下降，特别是在输出格式、知识保持和可靠性方面。实验结果显示，尽管知识受影响较小，但模型的可靠性降低，且存在重复输出的挑战。研究还讨论了资源消耗和局限于特定语言预训练的局限性。

本文是LLM系列文章，针对《Examining Forgetting in Continual Pre-training of Aligned Large
Language Models》的翻译。

在对齐的大型语言模型的持续预训练中检查遗忘

摘要
1 引言
2 持续预训练中灾难性遗忘的观察
3 直接的方法
4 实验
5 结论
局限性

摘要

大型语言模型（LLM）的最新进展在各种任务中表现出了非凡的熟练度。鉴于LLM在许多领域的强大应用，LLM的发展激增。在开发LLM时，一种常见的做法是对先前微调的模型进行持续的预训练。然而，这可能导致灾难性的遗忘。在我们的工作中，我们研究了在对现有微调LLM进行持续预训练时发生的遗忘现象。我们评估了连续预训练对微调LLM的影响，包括输出格式、知识和可靠性。实验结果强调了在持续的预训练中解决灾难性遗忘的挑战，尤其是重复问题。

1 引言

2 持续预训练中灾难性遗忘的观察

3 直接的方法

4 实验

5 结论

这项工作表明，在持续的预训练中，灾难性遗忘是一个不小的挑战，无法通过简单的方法解决。此外，我们发现，当模型在持续的预训练后倾向于产生繁体中文输出时，重复问题变得更加明显。此外，经过持续的预训练，模型的知识主要不受影响；然而，其可靠性下降。

局限性

一个值得注意的限制来自持续预训练LLM的资源密集型，这使得复制本工作中概述的所有直接的持续预训练方法具有挑战性。另一个重要的限制是，我们只使用传统汉语语料库进行持续的预训练

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。