[论文阅读]Attention Is All You Need

最新推荐文章于 2025-02-13 12:01:20 发布

XMU_MIAO

最新推荐文章于 2025-02-13 12:01:20 发布

阅读量1.1k

点赞数 1

分类专栏：论文阅读文章标签：神经网络自然语言处理深度学习

本文链接：https://blog.youkuaiyun.com/zy_miao/article/details/109168376

版权

Transformer是一种基于注意力机制的深度学习模型，抛弃了传统的循环和卷积结构，实现了更高效的并行化训练。在WMT2014的英德、英法翻译任务中，Transformer超越了现有最佳模型，取得了SOTA成绩。模型由Encoder和Decoder堆叠而成，其中包含了多头注意力机制，该模型对后续的BERT等预训练模型发展产生了深远影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文名：Attention Is All You Need
论文作者：Ashish Vaswani 等
期刊/会议名：NIPS 2017
本文作者：XMU_MIAO

1) 摘要

主流的序列转化模型是基于包含一个编码器和一个译码器的复杂循环或卷积神经网络。表现最好的模型也是通过注意力机制连接编码器和译码器。我们提出一种简单的网络架构， $\textbf{Transformer}$ ，其只基于注意力机制，完全去除了循环和卷积的结构。 在两个机器翻译任务上的实验表明该模型更加能够并行化且需要更少的时间训练的同时，能够在任务质量上有所提升。
在WMT 2014 $\textbf{English-German}$ 任务上取得了 $28.4$ 的 $\textbf{BLEU}$ 值，超过了现存的最好结果（包括集成） $2$ 个 $\textbf{BLEU}$ 值，在WMT2014 $\textbf{English-French}$ 任务上，我们的模型在8块GPU上训练了3.5天（这只是文献中最好模型训练成本的一小部分），得到了单个模型的最先进的 $\textbf{BLEU}$ 值41.8。我们将 $\textbf{Transformer}$ 成功地应用于具有大量和有限训练数据的英语选区解析任务上，证明它可以很好地推广到其他任务。

2) 文章贡献

提出了一种全新的只基于 $\textbf{Attention}$ 机制的网络结构 $\textbf{Transformer}$
$\textbf{Transformer}$ 在WMT2014的多个任务上达到了SOTA水平并能够推广到多个任务上
该结构造就后来的 $\textbf{BERT}$ 等预训练模型

3) 模型架构

大部分神经序列转换模型都有一个 $\textbf{Encoder-Decoder}$ 结构， $\textbf{Encoder}$ 将词表示序列 $x_1,...,x_n)$ 编码成一个连续的表示序列 $\textbf{z}=(z_1,...,z_n)$ 。给定一个序列 $\textbf{z}$ ， $\textbf{Decoder}$ 一次一个元素地生成输出序列 $y_1,...,y_m)$ ，输出序列中每个元素的生成都是自回归的( $auto{-}regressive$ )，在生成下一个元素时，使用先前生成的元素作为附加输入。
$\textbf{Transformer}$ 遵循了 $\textbf{Encoder{-}Decoder}$ 的整体架构，在 $\textbf{Encoder}$ 端和 $\textbf{Decoder}$ 端都采用了堆叠式的 $\textbf{self{-}attention}$ 和 $\textbf{point{-}wise}$ 的全连接层，整体架构如下：
在这里插入图片描述
接下来对每一个部分进行详细的说明和介绍，首先对 $\textbf{Encoder}$ 和 $\textbf{Decoder}$ 进行整体的描述，接下来着重介绍 $\textbf{Scaled\,\,Dot{-}Product\,\,Attention}$ 、 $\textbf{Mutil{-}head\,\,Attention}$ 以及 $\textbf{Attention}$ 机制在该模型的应用，最后介绍该结构中的其他部件和模型的输入和输出。

$1\,\textbf{Encoder\,\,and\,\,Decoder\,\,Stacks}$

$1.2\,\textbf{Encoder}$

在这里插入图片描述
$\textbf{Encoder}$ 由 $N = 6$ 个相同层堆叠而成的 $\textbf{Encoder\,Stack}$ （如下图所示）。每一层包含两个子层 $(s u b l a y e r)$ ，自下而上分别是 $\textbf{Mutil-Head Attention}$ 层和一个简单的 $\textbf{Position-wise}$ 的全连接前馈网络。

在每个子层中都使用了残差连接 $(residual\,\,connection)$ ，残差连接之后进行层标准化 $(layer\,\,normalization)$ 【子层的残差连接和层标准化即图中的 $Add\&Norm$ 】，每个子层的输出可以形式化表示为 $L a y e r N o r m (x + S u b l a y e r (x))$
其中 $S u b l a y e r (*)$ 表示子层自身实现的函数, $x$ 表示子层的输入, $L a y e r N o r m (*)$ 表示层规范化函数。
为了便于子层之间的残差连接 $(residual\,\,connection)$ ， $\textbf{Transformer}$ 模型中所有的子层 $(s u b l a y e r)$ 包括嵌入层 $(embedding\,\,layer)$ 输出的维度都为 $d_{model}=512$

$1.3\,\textbf{Decoder}$

在这里插入图片描述

$\textbf{Decoder}$ 同样是由于 $N = 6$ 个相同层堆叠而成的 $\textbf{Encoder\,Stack}$ ，但除了 $\textbf{Encoder}$ 中的两个子层外【注： $\textbf{Decoder}$ 中的 $\textbf{Multi-Head\,Attention}$ 使用了 $\textbf{Masked}$ 的技巧】， $\textbf{Decoder}$ 中增加了第三个子层（如上图红框中所示），该子层对 $\textbf{Encoder\,Stack}$ 的输出执行 $\textbf{Multi-Head\,Attention}$ 操作。 $\textbf{Decoder}$ 中的残差连接 $(residual\,\,connection)$ 和层标准化 $(layer\,\,normalization)$ 与 $\textbf{Encoder中}$ 相同。
$\textbf{Masked}$ 技巧：通过 $\textbf{Masked}$ 操作防止 $\textbf{Decoder}$ 中的输出元素看到其之后的元素。这个掩码 $(m a s k i n g)$ 与上输出偏移一个位置，确保了对位置 $i$ 元素的预测只能依赖于小于 $i$ 的已知输出。

$2\,\textbf{Attention}$

$\textbf{Transformer}$ 注意力函数可以描述为将查询 $(q u e r y)$ 和一组键-值对 $(k e y, v a l u e)$ 映射到输出，其中查询、键、值和输出都是向量。输出以值的加权和的形式计算，其中分配给每个值的权重由查询与相应键的兼容函数计算。以下介绍在 $\textbf{Transformer}$ 中 $\textbf{Attention}$ 结构。