注意力机制

最新推荐文章于 2024-12-10 09:27:14 发布

原创最新推荐文章于 2024-12-10 09:27:14 发布 · 198 阅读

CC 4.0 BY-SA版权

文章标签：

什么是Attention？
Attention模型的基本表述可以这样理解成：当我们人在看一样东西的时候，我们当前时刻关注的一定是我们当前正在看的这样东西的某一地方，换句话说，当我们目光移到别处时，注意力随着目光的移动野在转移，这意味着，当人们注意到某个目标或某个场景时，该目标内部以及该场景内每一处空间位置上的注意力分布是不一样的。这一点在如下情形下同样成立：当我们试图描述一件事情，我们当前时刻说到的单词和句子和正在描述的该事情的对应某个片段最先关，而其他部分随着描述的进行，相关性也在不断地改变。
从上述两种情形，读者可以看出，对于Attention的作用角度出发，我们就可以从两个角度来分类Attention种类：空间注意力和时间注意力，即Spatial Attention 和Temporal Attention。这种分类更多的是从应用层面上，而从Attention的作用方法上，可以将其分为Soft Attention和Hard Attention，这既我们所说的，Attention输出的向量分布是一种one-hot的独热分布还是soft的软分布，这直接影响对于上下文信息的选择作用。

为什么要加入Attention？
再解释了Attention做了一件什么事之后，我们讨论一下为什么需要Attention模型,即Attention加入的动机：
1.序列输入时，随着序列的不断增长，原始根据时间步的方式的表现越来越差，这是由于原始的这种时间步模型设计的结构有缺陷，即所有的上下文输入信息都被限制到固定长度，整个模型的能力都同样收到限制，我们暂且把这种原始的模型称为简单的编解码器模型。
2.编解码器的结构无法解释，也就导致了其无法设计。
Attention到底是什么原理？
下面我们来看一下Attention的具体原理：
首先让编码器输出结构化的表示，假设这些表示，可以用下述集合表示：
在这里插入图片描述

所以说Attention的作用是？
Attention的出现就是为了两个目的：

减小处理高维输入数据的计算负担，通过结构化的选取输入的子集，降低数据维度。
“去伪存真”，让任务处理系统更专注于找到输入数据中显著的与当前输出相关的有用信息，从而提高输出的质量。Attention模型的最终目的是帮助类似编解码器这样的框架，更好的学到多种内容模态之间的相互关系，从而更好的表示这些信息，克服其无法解释从而很难设计的缺陷。
从上述的研究问题可以发现，Attention机制非常适合于推理多种不同模态数据之间的相互映射关系，这种关系很难解释，很隐蔽也很复杂，这正是Attention的优势—不需要监督信号，对于上述这种认知先验极少的问题，显得极为有效。