REALM: Retrieval-Augmented Language Model Pre-Training 论文阅读

最新推荐文章于 2025-12-18 15:25:22 发布

原创最新推荐文章于 2025-12-18 15:25:22 发布 · 513 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #论文阅读 #人工智能

NLP 专栏收录该内容

5 篇文章

订阅专栏

REALM是一种新的预训练方法，通过结合无监督学习和知识检索，提升开放领域问答的性能。模型包括神经知识检索器和知识增强编码器，特别针对实体和日期进行mask，以学习更有用的知识。实验显示，相对于ORQA，REALM在准确度上有显著提升。

部署运行你感兴趣的模型镜像

ICML 2020

文章地址：https://kentonl.com/pub/gltpc.2020.pdf

0、背景

大部分的语言模型都采用一种称为masked language model，简称MLM的任务来训练，让模型学会类似完形填空一样的能力。通过在大规模语料上的训练，预训练语言模型如BERT实际上已经隐含了一些知识。例如输入一句“The is the currency of the United Kingdom”，BERT很有可能会填入单词"pound"。虽然他还是根据词的共现信息学习和推理的，但看上去就像具有所谓的知识一样。

但上面说的这种隐含知识不好把握，也难以扩展。这篇论文则提出了一种更加模块化且可解释性更强的知识嵌入方法。总的来说，他的方法是训练一个独立的“语境知识抽取器”（contextual knowledge retriever），通过这个抽取器来决定应该在推理时使用哪些知识。而且这个抽取器和语言模型一起进行非监督预训练大大提高模型性能。

在这之前这个方向上做得好的是这个模型ORQA。下面这个模型图并不是完整的，我只把最关键的一部分给截取下来了。这个任务论文里称作：反向完形填空任务。将问题Q和维基百科中的几百万句话都经过BERT embedding之后，然后计算q和每句话的相似度，用以预测语料库中哪些话是Q的上下文。通过这种方式训练检索的准确度。因为该篇作者认为找到问题可能的所在的上下文对回答问题是很有帮助的。

1、引言

通常来说训练检索器需要有标签的数据。但REALM采用了不同的方法，利用无监督的文本数据通过提取相关的特征来训练检索器。这意味着REALM可以在没有明确标注的数据情况下，通过学习无监督的文本信息来进行检索任务的训练和优化。这种方法可以扩大训练数据的规模，提高模型的效果和泛化能力。此外，本文还提出一些其他技巧用于加速训练、增强训练效果。

2、总结

本文对开放领域的问答（Open-QA）提出一种简单有效的预训练方法。模型首先从无标注文档中提出一句话，随机抹去其中的部分字符，然后根据被掩码后的句子，从文档集中提取最符合的文档，二者再拼接起来送入模型，预测被掩码的那些字符。在预测的时候，也是首先把问题送入模型，得到最符合的文档，再一起送入模型，从文档中抽取span作为答案。此外，本文还提出一些其他技巧用于加速训练、增强训练效果。实验表明，这种方法能比之前的最好结果有大幅增加。

3、REALM方法

上面是预训练任务MLM，下面是针对OpenQA任务微调

3.1 整体流程

我们使用完整的流程图进行介绍。

根据公式建模。这里对z进行了边缘化。

将整个流程分成以下两个部分。
1.Neural Knowledge Retriever：问题x中的实体词汇进行随机mask，将x与外部资源（这里选择是维基百科）经过BERT的embedding，计算x与各个zi向量的点积，即相似度。

由于考虑到维基百科中可能某些文档过长导致维度过大，所以对BERT输出向量进行了降维处理。

2.Knowledge-Augmented Encoder：根据得到的zi和x，判断答案的起始和结束位置之后输出结果。

3.2 额外细节

1.MIPS算法建立索引：维基百科中包含大量文本，如果都进行embedding之后与x进行点积操作，那么速度会非常慢，所以作者使用MIPS算法为向量建立索引，快速定位与查询向量最相似的文档，本文选取前5个相似度最大的文本。

2.参数和索引更新异步进行：引入索引机制后带来了新问题，当模型在预训练时，参数更新会导致embedding后的向量也随之更新，但要构建一个快速检索的索引又要求两个编码后的向量是确定的。作者的办法是使用16个TPU训练MLM任务，另外使用8个TPU每五百步更新一次索引。因为作者认为每次更新的参数对前五个文档的编码并不会产生太大的影响。