1. Introduction
在NLP常用的预训练模型通常是由token级别的任务进行训练的,如MLM和Seq2Seq,但是密集检索任务更倾向于句子级别的表示,需要捕捉句子的信息和之间的关系,一般主流的策略是自对比学习(self-contrastive learning)和自动编码(auto-encoding)。
- self-contrastive learning的效果会被数据增强的质量所限制,且需要大量的负样本,而auto-encoding不受制于这两个问题
- auto-encoding的研究重点在于encoding-decoding workflow的设计,对数据要求不高,但是下面两个因素会影响基于自动编码方法的性能:重建任务必须对编码质量有足够的要求;预训练数据需要被充分利用。
本文的作者针对上面的两个因素,提出了一种面向检索的基于自动编码的预训练模型–RetroMAE:

- 全新的自动编码流程:输入句子被掩码两次,第一次的掩码结果输入到编码器生成句子嵌入,另一个掩码结果结合生成的句子嵌入,输入到解码器中,通过MLM恢复原始句子;
RetroMAE是一种面向检索的预训练语言模型,通过非对称的编码-解码结构和增强解码策略,提升了自动编码方法在句子级别的表示能力和检索任务上的性能。模型使用全尺寸BERT编码器和单层Transformer解码器,通过不同掩码率的自编码过程,优化了数据利用和编码质量。实验表明,RetroMAE在零样本和有监督的密集检索任务中表现出色。
订阅专栏 解锁全文
1307






