论文链接:https://arxiv.org/abs/1705.03122
一、模型框架(A Convolutional Architecture)
1、模型的整体架构图:
2、位置向量(Position Embeddings)
- 对于源句子:我们令源句子为
我们将其向量化为
其中
是词向量矩阵D中的一行。我们将X中的每个词的绝对位置编码成与词向量相同大小的位置向量:
。我们将X和P相加可得到最终输入元素的表示:
其中
。这样encode的最终就是E。
- 对于目标句子:由于在训练期间我们的目标句子是已知的所以我们可以对目标句子
做一样的处理最终得到:
;所以训练期间的decoder的输入就是G。
3、卷积块结构(Convolutional Block Structure)
编码器和解码器都是由一个卷积快堆叠而成,每个卷积块由一个卷积层和一个非线性变换层组成。
- 卷积层:
- 对于一个核宽(kernel)为k的卷积层,它的每一个输出元素
都包含了其输入序列中的k个元素
)的信息;这相当于给输入词