TRACE: A COMPREHENSIVE BENCHMARK FOR CONTINUAL LEARNING IN LARGE LANGUAGE MODELS

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量273

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能机器学习

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/134248490

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文介绍TRACE，一个针对大型语言模型（LLM）的持续学习综合基准，由8个涵盖多领域任务的数据集组成，揭示了LLM在持续学习中的能力退化问题。提出推理增强持续学习（RCL）方法，通过结合任务特定线索和元理性，减少灾难性遗忘并加速新任务收敛。

本文是LLM系列文章，针对《TRACE: A COMPREHENSIVE BENCHMARK FOR CONTINUAL LEARNING IN LARGE LANGUAGE MODELS》的翻译。

摘要

对齐的大型语言模型（LLM）在解决任务、遵循说明和确保安全方面表现出非凡的能力。然而，这些一致LLM的持续学习方面在很大程度上被忽视了。现有的持续学习基准对领导一致的LLM缺乏足够的挑战，因为它们的简单性和模型在指令调整过程中的潜在暴露性。在本文中，我们介绍了TRACE，这是一种新的基准测试，旨在评估LLM中的持续学习。TRACE由8个不同的数据集组成，涵盖了具有挑战性的任务，包括特定领域的任务、多语言功能、代码生成和数学推理。所有数据集都被标准化为统一的格式，可以轻松地自动评估LLM。我们的实验表明，经过TRACE训练后，对齐的LLM在一般能力和指令跟随能力方面都表现出显著下降。例如，在我们的数据集上训练后，llama2 chat 13B在gsm8k数据集上的准确率从28.8%急剧下降到2%。这突出了在保持LLM的原始能力的同时，在实现特定任务的性能之间找到合适的折衷方案的挑战。经验发现表明，天生具备推理路径的任务有助于保持LLM的某些能力，以抵御潜在的衰退。基于此，我们引入了推理增强持续学习（RCL）方法。RCL将任务特定线索与元理性相结合，有效地减少了LLM中的灾难性遗忘，同时加快了新任务的收敛。