【论文精读(Transformer)】Attention Is All You Need 无需多言!!!

《Transformer:打破传统架构,重塑自然语言处理格局》

在这里插入图片描述


该篇论文 无需多言!!! Google在AI领域确实做出来非常多的贡献 ,在自然语言处理领域,序列转导模型的发展至关重要。传统基于循环或卷积神经网络的模型存在一定局限性,而本文提出的Transformer模型凭借全新的架构和注意力机制,为该领域带来了重大突破,展现出卓越的性能。

相关链接https://doi.org/10.48550/arXiv.1706.03762

之前的问题:

在序列建模和转导问题中,循环神经网络(如长短期记忆网络和门控循环神经网络)是主流方法,但它们沿输入和输出序列的符号位置进行计算,具有顺序性,这使得在训练示例内难以并行化,在处理长序列时受内存限制,计算效率受限。虽然有研究通过因式分解技巧和条件计算改进效率,但顺序计算的根本限制依然存在。注意力机制虽已成为序列建模和转导模型的重要部分,但大多与循环网络结合使用。

之前的方案:

传统循环模型在处理长序列时计算效率低且难以并行化。卷积神经网络虽可并行计算,但在捕捉长距离依赖关系时存在困难,如ByteNet和ConvS2S中,不同位置信号间操作数随距离增加,不利于学习长距离依赖。自注意力机制虽有应用,但此前的转导模型未完全依赖它,而是结合循环神经网络或卷积神经网络使用。


Proposed Method(提出方法):

提出Transformer模型,摒弃循环和卷积,完全基于注意力机制构建。
- 模型架构:采用编码器 - 解码器结构,编码器和解码器均由多层相同的层堆叠而成。编码器每层包含多头自注意力机制和逐点全连接前馈网络两个子层,并使用残差连接和层归一化;解码器除这两个子层外,还增加了对编码器输出的多头注意力子层,且对自注意力子层进行掩码处理,防止位置关注后续位置。
- 注意力机制:包括缩放点积注意力和多头注意力。缩放点积注意力通过计算查询与所有键的点积,除以(\sqrt{d_{k}}) 并应用softmax函数得到值的权重,相比其他注意力函数,在实践中更快且空间效率更高。多头注意力通过对查询、键和值进行多次线性投影,在不同投影版本上并行执行注意力函数,然后拼接和再次投影得到最终值,能让模型从不同表示子空间关注信息。
- 位置编码:由于模型无循环和卷积,为利用序列顺序信息,在编码器和解码器底部的输入嵌入中添加位置编码。使用正弦和余弦函数的不同频率作为位置编码,其波长形成几何级数,有助于模型学习相对位置,且可能使模型外推到比训练时更长的序列长度。

方法的优势:

Transformer模型具有诸多优势。在计算复杂度方面,当序列长度小于表示维度时,自注意力层比循环层更快,且可通过限制自注意力考虑的输入序列邻域大小,进一步提高计算性能。在学习长距离依赖方面,自注意力层连接所有位置的顺序操作数恒定,路径长度短,更易学习长距离依赖,而循环层和卷积层在这方面存在不足。此外,Transformer模型更易并行化,能大幅缩短训练时间。

实验与结果:

在多个任务上对Transformer模型进行评估,展现了其优异性能。
- 机器翻译:在WMT 2014英德翻译任务中,Transformer大模型BLEU得分达28.4,超越此前所有模型(包括集成模型),训练仅需3.5天;在英法翻译任务中,大模型BLEU得分41.8,超越所有此前发布的单模型,且训练成本不到之前最优模型的1/4。
- 模型变体:通过对模型不同组件进行变化实验,发现多头注意力中头的数量和注意力键值维度对模型质量有影响,减少注意力键大小会损害模型质量,更大的模型和合适的 dropout有助于提升性能和避免过拟合。
- 英语成分分析:在英语成分分析任务中,Transformer模型表现出色。在仅使用少量训练数据时,其性能优于除循环神经网络语法模型外的所有先前报告模型;在半监督设置下,性能也优于多数先前模型,证明了其良好的泛化能力。


最后的思考:

Transformer模型是首个完全基于注意力的序列转导模型,在翻译任务中训练速度远超基于循环或卷积层的架构,在多个任务上取得了新的最优成果。未来,研究方向可扩展到涉及文本以外输入和输出模态的问题,探索局部、受限的注意力机制以处理图像、音频和视频等大输入和输出,以及减少生成过程的顺序性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值