本文是LLM系列文章,针对《KILM: Knowledge Injection into Encoder-Decoder Language Models》的翻译。
摘要
大型预训练语言模型(PLMs)已被证明在其参数内保留隐含知识。为了增强这种隐性知识,我们提出了知识注入语言模型(KILM),这是一种通过持续预训练生成知识填充目标将实体相关知识注入编码器-解码器plm的新方法。这无需对plm进行架构修改或添加额外参数即可完成。在一系列知识密集型任务上的实验结果表明,KILM使模型能够在保留一般NLU和NLG任务的原始性能的同时保留更多的知识和更少的幻觉。KILM还在实体消歧等任务上展示了改进的零样本性能,优于具有30倍以上参数的最先进模型。
1 引言
2 相关工作
3 方法
4 实验
5 讨论
6 结论
在本文中,我们提出了一种新的方法,KILM,通过持续的预训练将实体相关知识注入大型plm。我们的方法提高了原始plm在知识密集型任务上的性能,特别是在零样本和小样本设置中,同时不会造成灾难性的后果原始plm中知识的遗忘。所提出的实体知识的独特结构能够灵活地探测不同背景下注入的知识。
局限性
在本文中,我们提出了一种持续预训练的方法,将知识注入到大型预训练的语
KILM是一种新方法,通过持续预训练将实体知识注入大型PLMs,增强其内在知识,无需修改模型架构或增加参数。实验证明,KILM能提高模型在知识密集型任务上的表现,特别是零样本和小样本场景,且在实体消歧任务上优于其他先进模型,同时保持了原有性能。然而,KILM的预训练过程耗时且资源密集。
已下架不支持订阅
3159

被折叠的 条评论
为什么被折叠?



