Attention Is All You Need阅读笔记

最新推荐文章于 2025-03-21 02:19:41 发布

untitled713

最新推荐文章于 2025-03-21 02:19:41 发布

阅读量442

点赞数

文章标签：自然语言处理机器学习

本文链接：https://blog.youkuaiyun.com/untitled_/article/details/106953754

版权

Transformer模型提出了一种全新的序列转导架构，摒弃了传统的递归和卷积，仅依赖注意力机制来捕获输入和输出之间的全局依赖。模型包含编码器和解码器，各由多个堆叠的子层组成，其中使用了多头注意力和位置编码来处理序列信息。Transformer在机器翻译等任务中表现出色，展示了注意力机制的强大能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文提出了一种新的简单的网络结构——Transformer，它完全基于注意机制，而不需要递归（RNN）和卷积（CNN）。
文章链接：Attention Is All You Need
代码链接：Transformer
一、文章引入
主流的Seq-Seq的模型通常采用RNN或者是CNN，一般在网络结构中都会用到encoder和decoder, 效果比较好的模型会通过attention(注意力机制)连接encoder和decoder。但是这种网络结构也存在一些问题：
递归模型通常沿输入和输出序列的符号位置进行因子计算。将位置与计算时间中的步骤对齐，它们生成隐藏状态h_t的序列，作为先前隐藏状态h_t-1和位置t的输入的函数。这种固有的序列性质使得其难以并行化；缺乏对全局信息的理解，尤其是长距离和层级化的依赖关系难以建立。
注意机制已成为各种任务中引人注目的序列建模和转导模型不可或缺的一部分，允许对依赖项进行建模，而无需考虑它们在输入或输出序列中的距离。但在大多数情况下，注意力机制仍然需要和递归网络结合使用。
本文提出的Transformer不需要任何递归网络，而完全依赖于注意机制来绘制输入和输出之间的全局依赖关系。
二、Background
1、在先前提出的模型中，关联来自两个任意输入或输出位置的信号所需的操作数在随着位置间距离的增加而增加，这使得学习远距离之间的依赖关系变得更加困难。在Transform中，此操作被减少为恒定的操作次数，尽管由于平均注意力加权位置而导致有效分辨率降低，但作者使用了多头注意力来抵消这种效果。
2、Self-attention将单个序列的不同位置联系起来，以计算序列的表示。自注意在阅读理解、抽象概括、语篇蕴涵和学习任务无关的句子表征等任务中得到了成功的运用。
3、End-to-end memory networks 基于递归注意机制，而不是序列对齐的递归，并且已被证明在简单语言问答和语言建模任务中表现良好。
三、Model Architecture
大多数竞争性神经序列转导模型都具有编码器-解码器（ encoder-decoder）结构。编码器将字符表示的输入序列（x₁，…，