论文：Attention is all you need

mili-coding

已于 2023-07-21 16:23:03 修改

阅读量348

点赞数 1

分类专栏： nlp论文阅读文章标签：深度学习 transformer

于 2023-07-21 16:21:21 首次发布

本文链接：https://blog.youkuaiyun.com/qq_45730823/article/details/131854716

版权

2 篇文章

订阅专栏

Attention is all you need

2017年的论文，首次引入transformer模型

传统的序列到序列问题是基于循环或卷积神经网络，而作者提出一种更简单的完全基于注意力机制的架构，在机器翻译取得了不错的成绩

RNN，LSTM，GRN已经建立起了序列模型的坚实基础

循环模型需要 $h_{t-1}$ 到 $h_t$ 状态连续变化，固有的顺序性限制了并行性

注意力机制可以对序列的依赖关系进行建模而不考虑序列中的距离，大多数情况下，注意力机制和循环网络结合使用

我们提出transformer，完全依赖注意力机制，允许更多的并行化

为了解决顺序计算导致的计算速度变慢的问题，有网络使用卷积神经网络作为基本构建块，对所有的输入和输出进行并行计算，但这些模型中将任意两个位置关联起来所需的操作数量随着位置距离的增长而增长，学习远距离的关系变得非常困难

transformer中，学习远距离的关系代价减少到了一个恒定的操作数量——但是也降低了识别关系的有效率，所以需要引入multi-head attention机制来抵消这种影响。

在这里插入图片描述

有两个子层

多头注意力层：

问：为什么要引入Multi-Head机制？

答：在多头注意力机制中，原始的注意力计算被扩展成多个并行的子注意力计算，每个子注意力计算被称为一个头（head）。每个头都有自己的一组参数（Q、K、V矩阵），并生成一组注意力权重。是为了提升transformer模型识别关系的有效率
完全连接的前馈网络（多层感知机）：

每个子层后面要接使用残差连接和进行归一化的步骤

残差连接：假设H(x)表示子层的输出，x表示子层的输入，那么残差连接的作用是H(x) + x，这样做有助于防止信息在多层传递中逐渐丢失，有助于减轻梯度消失问题，使得网络更容易训练。
归一化：
$LayerNorm(H(x)_i)=\frac{H(x)_i-\mu}{\sqrt{\sigma ^2+ \epsilon}}\times \gamma + \beta$
其中：
- H(x)_i表示输出的第i个特征维度
- $\mu$ 表示特征维度i上的均值
- $\sigma^2$ 表示特征维度i上的方差
- $\gamma$ 是可学习的缩放参数
- $\beta$ 是可学习的偏移参数
- $\epsilon$ 是一个小的常数，用于避免除以零
层归一化使得每个特征维度都具有均值为0和方差为1的分布，有助于提高训练稳定性。