本文是LLM系列文章,针对《EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models》的翻译。
摘要
大型语言模型(LLM)通常存在知识截断或谬论问题,这意味着它们不知道看不见的事件,或者由于过时/嘈杂的数据而生成具有错误事实的文本。为此,出现了许多LLM的知识编辑方法——旨在巧妙地注入/编辑更新的知识或调整不期望的行为,同时最大限度地减少对无关输入的影响。然而,由于各种知识编辑方法之间的显著差异和任务设置的差异,社区没有可用的标准实施框架,这阻碍了从业者将知识编辑应用于应用程序。为了解决这些问题,我们提出了EASYEDIT,这是一个易于使用的LLM知识编辑框架。它支持各种前沿的知识编辑方法,可以很容易地应用于许多著名的LLM,如T5、GPT-J、LlaMA等。经验上,我们用EASYEDIT报告了LlaMA-2的知识编辑结果,表明知识编辑在可靠性和通用性方面超越了传统的微调。我们已经在GitHub上发布了源代码,以及Google Colab教程和全面的文档,供初学者入门。此外,我们还提供了一个用于实时知识编辑的在线系统和一个演示视频。
1 引言
大型语言模型(llm)彻底改变了现代自然语言处理(NLP),显著提高了各种任务的性能。然而,部署的LLM通常会遇到知识截断或谬误问题。例如,像ChatGPT和LlaMA这样的llm只拥有直到他们最后一次训练点的信息。由于预训练数据中的潜在差异和偏差,它们有时会产生不准确或误导性的信息。因此,必须有效地更新llm内部的参数知识,以修改特定的行为。
事实上,微调或参数有效微调提供了修改llm的方法,这些方法在计算上可能很昂贵,并可能导致过拟合,特别是在应用于有限数量的样本时。此外,精细调整的模型可能会丧失在预训练期间获得的能力,并且它们的修改并不总是推广到相关的输入。另一种方法
EASYEDIT是一个方便的知识编辑框架,适用于大型语言模型,如T5、GPT-J、LlaMA等。它支持各种知识编辑方法,解决LLM的知识截断和谬误问题,同时保持对无关输入影响的最小化。该框架提供了模块化的编辑、评估和训练功能,便于新方法的集成和性能评估。EASYEDIT已在GitHub上开源,包括Google Colab教程和全面文档,促进知识编辑在NLP领域的应用和发展。
已下架不支持订阅
517

被折叠的 条评论
为什么被折叠?



