32、自然语言处理中的Transformer架构与图像字幕生成网络

自然语言处理中的Transformer架构与图像字幕生成网络

1. 注意力机制回顾与循环网络替代方案

注意力机制是一个通用概念,有多种实现方式。不同的实现方式在行为表现和计算效率上存在差异。在神经机器翻译(NMT)中,最初采用基于循环神经网络(RNN)的编码器 - 解码器网络来处理可变长度的源序列和目标序列,它能以固定大小的中间表示优雅地解决这一问题。

然而,为了实现长句的高质量翻译,我们对输入序列长度进行了一些限制,并让解码器通过注意力机制以随机访问的方式访问中间状态。此外,RNN 本质上是串行的,计算难以像其他网络架构那样并行化,导致训练时间较长。

为了解决这些问题,研究人员探索了替代方案:
- 基于卷积网络和注意力机制的方法,避免使用循环网络。
- 引入了 Transformer 架构,它不使用循环层和卷积层,而是基于全连接层、自注意力机制和多头注意力机制。其关键优势在于具有并行性,所有输入符号(如语言翻译中的单词)的计算可以并行进行。

2. Transformer 架构的基础:自注意力机制

自注意力机制与之前研究的注意力机制有所不同。在之前的注意力机制中,解码器通过注意力机制将焦点集中在中间状态的不同部分;而自注意力机制用于决定关注前一层输出的哪一部分。

自注意力机制的架构具有并行性:
- 图中的嵌入层、注意力机制和全连接层虽然有多个实例,但它们完全相同(权重共享)。
- 同一层内单词之间没有依赖关系,这使得计算可以并行进行。例如,我们可以将注意力机制的四个输出向量排列成一个四行矩阵,全连接层用每个神经元对应一列的矩阵表示,通过一次矩阵 - 矩阵乘法就可以并行计算所有四

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值