KILM: Knowledge Injection into Encoder-Decoder Language Models

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量877

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133882830

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

KILM是一种新方法，通过持续预训练将实体知识注入大型PLMs，增强其内在知识，无需修改模型架构或增加参数。实验证明，KILM能提高模型在知识密集型任务上的表现，特别是零样本和小样本场景，且在实体消歧任务上优于其他先进模型，同时保持了原有性能。然而，KILM的预训练过程耗时且资源密集。

本文是LLM系列文章，针对《KILM: Knowledge Injection into Encoder-Decoder Language Models》的翻译。

KILM：知识注入到编码器-解码器语言模型

摘要
1 引言
2 相关工作
3 方法
4 实验
5 讨论
6 结论
局限性

摘要

大型预训练语言模型(PLMs)已被证明在其参数内保留隐含知识。为了增强这种隐性知识，我们提出了知识注入语言模型(KILM)，这是一种通过持续预训练生成知识填充目标将实体相关知识注入编码器-解码器plm的新方法。这无需对plm进行架构修改或添加额外参数即可完成。在一系列知识密集型任务上的实验结果表明，KILM使模型能够在保留一般NLU和NLG任务的原始性能的同时保留更多的知识和更少的幻觉。KILM还在实体消歧等任务上展示了改进的零样本性能，优于具有30倍以上参数的最先进模型。

1 引言

2 相关工作

3 方法

4 实验

5 讨论

6 结论

在本文中，我们提出了一种新的方法，KILM，通过持续的预训练将实体相关知识注入大型plm。我们的方法提高了原始plm在知识密集型任务上的性能，特别是在零样本和小样本设置中，同时不会造成灾难性的后果原始plm中知识的遗忘。所提出的实体知识的独特结构能够灵活地探测不同背景下注入的知识。

局限性

在本文中，我们提出了一种持续预训练的方法，将知识注入到大型预训练的语

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。