目录
论文简介与作者
背景(以往缺点与不足)
不同学者使用不同的方式合并关于元素的顺序位置的信息。
- 卷积神经网络固有地捕获每个卷积的内核大小内的相对位置。
- RNN在计算隐藏状态ht时,结合其在时间t的输入和先前隐藏状态ht-1的函数直接通过其序列结构捕获沿时间维度沿着的相对和绝对位置。
Transformer模型
既不使用卷积也不使用递归,位置编码,将每个位置用一个向量来表示,然后与元素对应的词向量相加来使得模型可以感知元素地位置信息。
缺点
- 没有显式对相对位置建模。
- 不一定顺序地考虑输入元素,需要显式地编码位置信息以能够使用序列顺序。
新方法
- 提出相对位置编码(Relation-aware): 考虑任意两个元素之间的输入。
- 扩展Self-attention机制: 扩展的自注意力机制的Transformer考虑任意两个元素之间的输入