一篇文章带你彻底搞懂大模型技术之自注意力（Self-Attention）机制，建议收藏

最新推荐文章于 2025-06-26 12:47:08 发布

和老莫一起学AI

最新推荐文章于 2025-06-26 12:47:08 发布

阅读量1.3k

点赞数 19

CC 4.0 BY-SA版权

文章标签：面试职场和发展人工智能自然语言处理 ai 大模型程序员

本文链接：https://blog.youkuaiyun.com/2401_85373691/article/details/147593660

大家知道无论是大语言模型GPT系列，还是推理模型OpenAI o1、DeepSeek R1，都采用了Transformer架构。Transformer架构通过“自注意力机制”彻底重塑了自然语言处理，使得模型能够更好地理解和生成语言。本文从注意力机制的起源、发展历程说起，核心介绍了注意力机制的原理，并介绍了自注意力机制与注意力机制的区别。

01 什么是注意力机制？

注意力机制（Attention Mechanism）是一种模仿人类注意力行为的计算模型，其核心思想是让模型能够有选择性地关注输入序列中的不同部分，并为这些部分分配不同的权重，以此来突出对任务更关键的信息。

深度学习引入注意力机制的主要原因是为了解决传统模型在处理长序列数据时存在的信息遗忘和上下文信息丢失问题‌。传统的序列模型如RNN和LSTM在处理长序列时，容易出现信息遗忘和梯度消失的问题，导致模型难以捕捉到长距离的依赖关系‌。

02 注意力机制的起源

注意力机制起源于人类或动物大脑的注意力机制。比如动物在广阔的大草原上会快速注意到自己的猎物或者天敌。人类在环境中也会根据随意线索（主观）和不随意（客观）线索选择注意点。

比如如下例子，第一眼我们会看到红色的杯子，它相比于其它物品颜色偏亮，属于不随意线索。假设拿起杯子喝了之后，接下来想读书，那这就是随意线索（跟随意志，有意识：有意识的关注你想要的）。想要读书的这个随意线索，就代表了我们把注意力要投入到书本当中。

在这里插入图片描述

也就是说人类的视野开阔，但是焦点只有一小范围或一个点，这就是所谓的注意力Attention，但是人眼不可能一次性把所有东西都看全面，总会通过一些刻意或不刻意的线索然后通过注意力来接受视野。再比如当你看到这句话的时候，你的注意力在这里，而不是在其它地方。所以在当前计算机算力资源的限制下，注意力机制绝对是提高效率的一种必要手段，将注意力集中到有用的信息上，从而减小在噪声中花费的时间。

同样，当我们读一句话时，大脑也会首先记住重要的词汇，这样就可以把注意力机制应用到自然语言处理任务中，于是人们就通过借助人脑处理信息过载的方式，提出了Attention机制。

03 Attention注意力机制的出现和应用

1.注意力机制最早可以追溯到1998年****‌。

1998年，一篇名为《A model of saliency-based visual attention for rapid scene analysis》的论文发表，这是早期将注意力机制应用于计算机视觉领域的代表作，作者受早期灵长目视觉系统的神经元结构启发，提出了一种视觉注意力系统，可将多尺度的图像特征组合成单一的显著性图，利用动态神经网络按显著性顺序选择重点区域‌。

2.在深度学习领域，注意力机制首次被引入是在2014年‌。

2014年，谷歌DeepMind发表的《Recurrent models of visual attention》使注意力机制受到广泛关注，该论文首次在RNN模型上应用注意力机制进行图像分类‌。同年，Yoshua Bengio等人在《Neural machine translation by jointly learning to align and translate》中将注意力机制首次应用到自然语言处理（NLP）领域，实现了同步的对齐和翻译，解决了以往神经机器翻译（NMT）领域使用encoder-decoder架构的一个潜在问题‌。

3.注意力机制在2017年得到了进一步的发展和推广‌。

2017年，来自谷歌的Ashish Vaswani等人发表了《Attention Is All You Need》论文，提出了Transformer模型，该模型完全基于注意力机制，极大地推动了自然语言处理领域的发展‌。

04 注意力机制

注意力机制的核心包括三个概念：Q-查询（query）、K-键（key）、V-值（value）。

在这里插入图片描述

查询（query）是用来在输入序列中查找相关信息的向量，即查询向量。它代表了当前模型对于某一特定输出所需要关注的信息。

键（key）是用于与查询向量进行匹配的向量。每个输入序列的元素都会有一个键向量，表示该元素的特征或信息。

值（Value）向量是与键（Key）向量对应的，用于生成最终的输出。

从本质上理解，Attention是从大量信息中有筛选出少量重要信息，并聚焦到这些重要信息上，忽略大多不重要的信息。权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。具体来说，它涉及以下三个关键步骤：

在这里插入图片描述

Step1：计算查询（Query）各部分的相关性：

这是注意力机制的第一步，目的是确定输入序列数据中每个部分对于当前任务的重要性。权重的计算通常是基于**查询（Query）**和模型参数某个Key i ，计算两者的相似性或者相关性。最常见的方法包括：点积、余弦相似性或多层感知机（MLP）网络。
在这里插入图片描述

Step2：对相关性进行归一化处理得到权重：

引入类似SoftMax的计算方式对第一阶段的得分进行数值转换，主要是进行归一化处理，将原始计算分值整理成所有元素权重之和为1的概率分布。另外，也可以通过SoftMax的内在机制更加突出重要元素的权重。即一般采用如下公式计算：

在这里插入图片描述

Step3：对Value进行加权求和得到Attention数值：

前两步的计算结果即为Valuei 对应的权重系数，然后进行加权求和即可得到Attention数值：

在这里插入图片描述

这样，模型就能够根据权重的大小，对输入数据进行有选择的关注。

05 自注意力机制

自注意力机制是注意力机制的变体。注意力机制发生在目标元素（输出）与源元素（输入）之间。而自注意力机制是在输入序列内部元素之间，或者输出序列内部元素之间的相互作用。

注意力机制的一个应用场景是机器翻译，比如中译英模型中，查询（Query）是中文单词的特征，键（Key）是英文单词的特征。而自注意力机制的查询（Query）和键（Key）则来自同一组元素，即查询和键都是中文特征，彼此之间进行注意力计算。这可以用于理解为同一句话中的词元或同一张图像中的不同patch之间的相互作用，理解更加深入。因此，自注意力机制（Self-Attention）也被称为内部注意力机制（Intra-Attention）。

自注意力机制通过计算每个元素与其他所有元素之间的相关性（注意力权重），将输入序列进行加权求和，从而得到新的表示。这种表示不仅包含了序列中所有元素的信息，还能够突出与当前元素关联的重要部分。

在这里插入图片描述