深度学习——attention机制

最新推荐文章于 2025-05-12 16:43:29 发布

原创

最新推荐文章于 2025-05-12 16:43:29 发布 · 1w 阅读

28 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习

本文详细介绍了深度学习中Attention机制的三种主要思路：RNN层、CNN层和纯Attention。讨论了每种方法的优缺点，如RNN的序列建模和计算效率问题，CNN的并行化优势和局限性，以及纯Attention的全局信息获取能力。Transformer模型的多头注意力机制和位置嵌入被重点提及，同时指出了其在位置信息建模上的不足。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、序列编码

目前主流的处理序列问题像机器翻译，文档摘要，对话系统，QA等都是encoder和decoder框架，
编码器：从单词序列到句子表示
解码器：从句子表示转化为单词序列分布

1、第一个基本的思路是 RNN 层

RNN 的方案很简单，递归式进行：

但是，这种方式会有一个问题：对于长句子的翻译会造成一定的困难，而attention机制的引入可以解决这个问题。（为什么引入注意力模型？因为没有引入注意力的模型在输入句子比较短的时候问题不大，但是如果输入的句子比较长，此时所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，可想而知会丢失很多的细节信息，所以要引入注意力机制）如下图所示：

理解Attention模型的关键就是，由固定的中间语义表示C换成了根据当前输出单词来调整成加入注意力模型的变化的Ci.而每个Ci可能对应着不同的源语句子单词的注意力分配概率分布。

RNN+Attention:

这里，我们可以看到，decoder得到的序列中有几个输出值，对应的语义编码c则有相同的数量，即一个语义编码ci对应一个输出yi。而每个ci就是由attention机制得到，具体公式如下：

其中：ci：encoder序列加权得到的值； si：； yt：

Neural machine translation by jointly learning to align and translate

这篇论文首先将注意力机制运用在NLP上，提出了soft Attention Model，并将其应用到了机器翻译上面。其实，所谓Soft，意思是在求注意力分配概率分布的时候，对于输入句子X中任意一个单词都给出个概率，是个概率分布。加入注意力机制的模型表现确实更好，但也存在一定问题，例如：attention mechanism通常和RNN结合使用，我们都知道RNN依赖t-1的历史信息来计算t时刻的信息，因此不能并行实现，计算效率比较低，特别是训练样本量非常大的时候。

不管是已经被广泛使用的 LSTM、GRU 还是最近的 SRU，都并未脱离这个递归框架。RNN 结构本身比较简单，也很适合序列建模，但 RNN 的明显缺点之一就是无法并行，因此速度较慢，这是递归的天然缺陷。

另外我个人觉得 RNN 无法很好地学习到全局的结构信息，因为它本质是一个马尔科夫决策过程。