Attention Is All You Need论文翻译

论文名称 注意力即是全部

论文地址 https://user.phil.hhu.de/~cwurm/wp-content/uploads/2020/01/7181-attention-is-all-you-need.pdf

摘要

主流的序列转导模型基于复杂的递归或卷积神经网络,这些网络包含编码器和解码器。性能最好的模型通过注意力机制将编码器和解码器连接起来。我们提出了一种新的简单网络架构——Transformer,仅基于注意力机制,完全摆脱了递归和卷积。对两个机器翻译任务的实验表明,这些模型在质量上优于传统模型,同时具有更高的并行性,并且训练所需时间显著减少。我们的模型在WMT 2014英德翻译任务中取得了28.4的BLEU分数,相比现有最佳结果(包括集成模型)提升了2分以上。在WMT 2014英法翻译任务中,我们的模型经过8个GPU训练3.5天后,创造了41.0的单模型最新BLEU分数,这只是文献中最佳模型训练成本的一小部分。

1 引言

     递归神经网络,尤其是长短期记忆(LSTM)[12]和门控递归神经网络(GRU)[7],在序列建模和转导问题(如语言建模和机器翻译)中已被确立为最先进的方法 [29, 2, 5]。此后,许多研究继续推动递归语言模型和编码-解码架构的边界 [31, 21, 13]。递归模型通常在输入和输出序列的符号位置上展开计算。通过将这些位置与计算时间的步骤对齐,它们生成隐藏状态序列 ht,这一过程依赖于前一个隐藏状态 ht−1 和位置 t 的输入。然而,这种固有的顺序特性阻碍了训练示例内的并行化,而在较长序列长度时,这变得尤为关键,因为内存限制限制了跨示例的批处理。最近的研究通过分解技巧 [18] 和条件计算 [26] 在计算效率上取得了显著改善,同时也提高了后者的模型性能。然而,顺序计算的根本限制仍然存在。

       注意力机制已成为各种任务中引人注目的序列建模和转导模型的重要组成部分,允许在建模依赖关系时不考虑它们在输入或输出序列中的距离 [2, 16]。然而,在所有情况下,除了少数几种情况 [22],这种注意力机制都是与递归网络结合使用的。

       在本工作中,我们提出了Transformer,这是一种完全依赖注意力机制以建立输入和输出之间全局依赖关系的模型架构,从而避免了递归。Transformer允许显著更多的并行化,并且在使用八个P100 GPU训练仅十二小时后,能够达到翻译质量的新最优水平。

2 背景

       减少顺序计算的目标也是扩展神经GPU [20]、ByteNet [15] 和 ConvS2S [8] 的基础,这些模型都使用卷积神经网络作为基本构件,为所有输入和输出位置并行计算隐藏表示。在这些模型中,关联来自两个任意输入或输出位置的信号所需的操作数量随着位置之间的距离增加而增加,对于ConvS2S是线性增长,对于ByteNet则是对数增长。这使得学习远程位置之间的依赖关系变得更加困难 [11]。在Transformer中,这一操作数量被减少到一个常数,尽管由于对注意力加权位置进行平均处理而导致有效分辨率降低,这是我们通过第3.2节中描述的多头注意力机制来弥补的。

       自注意力,有时称为内注意力,是一种将单个序列的不同位置相关联的注意力机制,用于计算该序列的表示。自注意力已成功应用于多种任务,包括阅读理解、抽象摘要、文本蕴含和学习任务无关的句子表示 [4, 22, 23, 19]。端到端记忆网络基于递归注意力机制,而不是顺序对齐的递归,并且在简单语言问答和语言建模任务上表现良好 [28]。

       然而,据我们所知,Transformer是第一个完全依赖自注意力来计算输入和输出表示的转导模型,而不使用顺序对齐的RNN或卷积。在接下来的章节中,我们将描述Transformer,阐述自注意力的动机,并讨论其相较于 [14, 15] 和 [8] 等模型的优势。

3 模型架构

       大多数竞争性的神经序列转导模型具有编码器-解码器结构 [5, 2, 29]。在这里,编码器将符号表示的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值