<论文>通过解耦注意力来增强Bert

一、摘要

        本文介绍的是来自微软团队的论文《DeBERTa: Decoding-enhanced BERT with Disentangled Attention》,翻译过来是“使用解耦注意力机制的解码增强型Bert”,看词就知道又是一篇炼丹大作。5994fd599c5549e6bea028ecc2e1c0e7.png

译文:

        预训练神经语言模型的最新进展显著提高了许多自然语言处理(NLP)任务的性能。在本文中,我们提出了一种新的模型架构 DeBERTa(具有解耦注意力的解码增强型 BERT),它使用两种新技术改进了 BERT 和 RoBERTa 模型。第一种是解耦注意力机制,其中每个单词分别用两个向量表示其内容和位置,单词之间的注意力权重分别使用基于其内容和相对位置的解耦矩阵计算。其次,使用增强的掩码解码器在解码层中合并绝对位置,以在模型预训练中预测被掩码的标记。此外,一种新的虚拟对抗训练方法用于微调,以提高模型的泛化能力。我们表明,这些技术显著提高了模型预训练的效率以及自然语言理解(NLU)和自然语言生成(NLG)下游任务的性能。与 RoBERTa - Large 相比,在一半训练数据上训练的 DeBERTa 模型在广泛的 NLP 任务上始终表现更好,在 MNLI 上提高了 +0.9%(90.2% 对 91.1%),在 SQuAD v2.0 上提高了 +2.3%(88.4% 对 90.7%),在 RACE 上提高了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值