一、摘要
本文介绍的是来自微软团队的论文《DeBERTa: Decoding-enhanced BERT with Disentangled Attention》,翻译过来是“使用解耦注意力机制的解码增强型Bert”,看词就知道又是一篇炼丹大作。
译文:
预训练神经语言模型的最新进展显著提高了许多自然语言处理(NLP)任务的性能。在本文中,我们提出了一种新的模型架构 DeBERTa(具有解耦注意力的解码增强型 BERT),它使用两种新技术改进了 BERT 和 RoBERTa 模型。第一种是解耦注意力机制,其中每个单词分别用两个向量表示其内容和位置,单词之间的注意力权重分别使用基于其内容和相对位置的解耦矩阵计算。其次,使用增强的掩码解码器在解码层中合并绝对位置,以在模型预训练中预测被掩码的标记。此外,一种新的虚拟对抗训练方法用于微调,以提高模型的泛化能力。我们表明,这些技术显著提高了模型预训练的效率以及自然语言理解(NLU)和自然语言生成(NLG)下游任务的性能。与 RoBERTa - Large 相比,在一半训练数据上训练的 DeBERTa 模型在广泛的 NLP 任务上始终