自然语言处理中的Transformer架构与图像字幕生成网络
1. 注意力机制回顾与循环网络替代方案
注意力机制是一个通用概念,有多种实现方式。不同的实现方式在行为表现和计算效率上存在差异。在神经机器翻译(NMT)中,最初采用基于循环神经网络(RNN)的编码器 - 解码器网络来处理可变长度的源序列和目标序列,它能以固定大小的中间表示优雅地解决这一问题。
然而,为了实现长句的高质量翻译,我们对输入序列长度进行了一些限制,并让解码器通过注意力机制以随机访问的方式访问中间状态。此外,RNN 本质上是串行的,计算难以像其他网络架构那样并行化,导致训练时间较长。
为了解决这些问题,研究人员探索了替代方案:
- 基于卷积网络和注意力机制的方法,避免使用循环网络。
- 引入了 Transformer 架构,它不使用循环层和卷积层,而是基于全连接层、自注意力机制和多头注意力机制。其关键优势在于具有并行性,所有输入符号(如语言翻译中的单词)的计算可以并行进行。
2. Transformer 架构的基础:自注意力机制
自注意力机制与之前研究的注意力机制有所不同。在之前的注意力机制中,解码器通过注意力机制将焦点集中在中间状态的不同部分;而自注意力机制用于决定关注前一层输出的哪一部分。
自注意力机制的架构具有并行性:
- 图中的嵌入层、注意力机制和全连接层虽然有多个实例,但它们完全相同(权重共享)。
- 同一层内单词之间没有依赖关系,这使得计算可以并行进行。例如,我们可以将注意力机制的四个输出向量排列成一个四行矩阵,全连接层用每个神经元对应一列的矩阵表示,通过一次矩阵 - 矩阵乘法就可以并行计算所有四
超级会员免费看
订阅专栏 解锁全文
579

被折叠的 条评论
为什么被折叠?



