Raki的读paper小记:DEBERTA: DECODING-ENHANCED BERT WITH DISENTANGLED ATTENTION

Abstract & Introduction & Related Work

  • 研究任务
    • 预训练语言模型
  • 已有方法和相关工作
    • BERT, RoBERTa
  • 面临挑战
  • 创新思路
    • disentangled attention mechanism :每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。
    • enhanced mask decoder :用于在解码层中加入绝对位置,以预测模型预训练中的掩码符号
    • 此外,一个新的虚拟对抗训练方法被用来进行微调,以提高模型的泛化能力
  • 实验结论
    sota,大DeBERTa在superGLUE上首次超越了人类的宏平均分数

THE DEBERTA ARCHITECTURE

DISENTANGLED ATTENTION: A TWO-VECTOR APPROACH TO CONTENT AND POSITION EMBEDDING

token之间的注意力分数计算:
在这里插入图片描述
标准注意力机制,相当于用公式2的内容-内容,内容-位置两项,我们认为,位置-内容项也很重要,因为一个词对的注意权重不仅取决于它们的内容,还取决于它们的相对位置,这只能用内容-位置项和位置-内容项来完全建模。由于我们使用的是相对位置嵌入,位置到位置项并没有提供太多额外的信息,因此在我们的实施中从方程2中删除
在这里插入图片描述
用k来表示最大相对距离
在这里插入图片描述
DeBERTa注意力计算公式:
在这里插入图片描述
参数的一些解释
A i , j ~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值