Abstract & Introduction & Related Work
- 研究任务
- 预训练语言模型
- 已有方法和相关工作
- BERT, RoBERTa
- 面临挑战
- 创新思路
- disentangled attention mechanism :每个词用两个向量表示,分别编码其内容和位置,而词之间的注意力权重则分别用关于其内容和相对位置的分解矩阵来计算。
- enhanced mask decoder :用于在解码层中加入绝对位置,以预测模型预训练中的掩码符号
- 此外,一个新的虚拟对抗训练方法被用来进行微调,以提高模型的泛化能力
- 实验结论
sota,大DeBERTa在superGLUE上首次超越了人类的宏平均分数
THE DEBERTA ARCHITECTURE
DISENTANGLED ATTENTION: A TWO-VECTOR APPROACH TO CONTENT AND POSITION EMBEDDING
token之间的注意力分数计算:
标准注意力机制,相当于用公式2的内容-内容,内容-位置两项,我们认为,位置-内容项也很重要,因为一个词对的注意权重不仅取决于它们的内容,还取决于它们的相对位置,这只能用内容-位置项和位置-内容项来完全建模。由于我们使用的是相对位置嵌入,位置到位置项并没有提供太多额外的信息,因此在我们的实施中从方程2中删除
用k来表示最大相对距离
DeBERTa注意力计算公式:
参数的一些解释
A i , j ~