Abstract&Introduction&Related Work
- 研究任务
预训练语言模型 - 已有方法和相关工作
BERT等 - 面临挑战
已有的方法依赖下游任务 - 创新思路
- 融合了双向和自回归模型
- 随机打乱原始句子的顺序,并同时使用一种novel的填空方案,文本的span只用一个masked token置换,取得了最好的效果
- 实验结论
在预训练阶段,encoder类似bert,decoder类似gpt,一个双向一个自回归
在fine-tune阶段,未被破坏的文本被同时输入到encoder和decoder,用decoder的最后隐藏层作为表示
这种设置的一个关键优势是去噪的灵活性;可以对原始文本进行任意的转换,包括改变其长度
BART
使用跟transformer一样的结构,区别有两点:
- decoder的每一层都跟最后一层隐藏层做交叉注意力
- 没有像BERT一样在词预测前设置的一个全连接层
- 比同层数BERT多10%的参数
decoder的输出和原文本做交叉熵损失,BART允许所有类型的文本破坏
如图:
text infilling受到spanBERT的启发,但是spanBERT用等长的『MASK』