论文链接:https://arxiv.org/abs/1705.03122
一、模型框架(A Convolutional Architecture)
1、模型的整体架构图:
2、位置向量(Position Embeddings)
- 对于源句子:我们令源句子为
我们将其向量化为
其中
是词向量矩阵D中的一行。我们将X中的每个词的绝对位置编码成与词向量相同大小的位置向量:
。我们将X和P相加可得到最终输入元素的表示:
其中
。这样encode的最终就是E。 - 对于目标句子:由于在训练期间我们的目标句子是已知的所以我们可以对目标句子
做一样的处理最终得到:
;所以训练期间的decoder的输入就是G。
3、卷积块结构(Convolutional Block Structure)
编码器和解码器都是由一个卷积快堆叠而成,每个卷积块由一个卷积层和一个非线性变换层组成。
- 卷积层:
- 对于一个核宽(kernel)为k的卷积层,它的每一个输出元素
都包含了其输入序列中的k个元素
)的信息;这相当于给输入词

本文探讨了一种卷积神经网络(CNN)在序列到序列学习中的架构,包括模型的整体架构、位置向量、卷积块结构和多步注意力机制。在编码器和解码器中,卷积层和非线性变换层被用于捕获上下文信息。此外,还介绍了优化技巧,如归一化策略和初始化方法,以确保模型的稳定学习。

最低0.47元/天 解锁文章
1643

被折叠的 条评论
为什么被折叠?



