前言
大家好呀,今天我们来分享注意力机制的概念和基本原理,并且进一步介绍通道注意力、空间注意力、混合注意力、自注意力等等,接下来我们就一起来看看吧
1 注意力机制
我们可以通过眼睛看到各种各样的事物,感知世界上的大量信息,可以让自己免受海量信息的干扰,是因为人的选择能力,可以选择重要的信息,而忽视不重要的信息。
举个例子,下面有一张图片,当我们看到这张图片的时候会下意识把注意力集中到能猫的身上,而忽略背景。
即:在观看这幅图像的时候,并非能够对图片的所有信息给予相同的关注度,而是将注意力着重放在某个局部区域。
同样,希望网络也具有这种能力,从而在网络中引入了注意力机制。注意力机制,是对输入进行加权再输出,希望网络关注到的地方给较大的权重,不希望网络注意的地方给较小的权重。
再举个例子,在自然语言处理领域,在分析一句话的时候,并不是所有的词的信息都需要被关注,可以选择重要的词分析,即可理解句子所传达的语义。
2 通道注意力机制
通道注意力机制的代表模型是:压缩和激励网络(Squeeze-and-Excitation Networks,SENet),SENet分为压缩和激励两个部分,其中压缩部分的目的是对全局空间信息进行压缩,然后在通道维度进行特征学习,形成各个通对道的重要性,最后通过激励部分对各个通道进行分配不同权重的。
上图是SE模块的结构,在压缩部分,输入的元素特征图的维度是 HxWxC,H、W 和 C分别代表高度、宽度和通道数。压缩部分的功能是将维数从 HxWxC 压缩至1x1xC,即把, HxW 压缩为 1x1 维这个过程由全局平均池化实现。
在激励部分,需要将压缩部分得到的 1x1xC 的维度融入全连接层,预测各个通道的重要程度,然后再激励到前面特征图对应通道上进行操作。采用简单的门控机制与Sigmoid 激活函数。
小结:在通道注意力机制,学习各个通道的重要性时,是先对特征图的空间进行压缩,然后在通道维度进行学习,得到各个通道的重要性。

3 空间注意力机制
空间注意力机制的代表模型是:空间变换神经网络(Spatial TransformerNetworks,STN),STN能够对各种形变数据在空间中进行转换并自动捕获重要区域特征。它能够保证图像在经过裁剪、平移或者旋转等操作后,依然可以获得和操作前的原始图像相同的结果。
举个例子,在MNIST数字分类的中应用STN,该分类过程一共包含4个步骤:
-
MNIST中的数字,是经过随机平移、缩放和旋转处理;把它们输入到STN网络中
-
通过STN网络,预测前面输入数字的变换(是平移了?还是缩放了?或是旋转了?)
-
STN网络预测出“变换前的数字”,即没经过变换的数字是怎样的
-
最终进行分类预测
STN 网络包括局部网络、参数化网络采样(网络生成器)和差分图像采样。
局部网络:预测输入数字的变换(是平移了?还是缩放了?或是旋转了?)
网络生成器:获得输出特征图坐标点在输入特征图中坐标点的对应位置
4 混合注意力机制
在混合注意力机制中,通道注意力和空间注意力可以通过串联、或者并联的方式进行组合
混合注意力机制的代表模型是:卷积注意力模块(Convolutional BlockAtention Module,CBAM)它包括通道注意力模块CAM、和空间注意力模块SAM。
CBAM的模型结构如下,它对输入的特征图,首先进行通道注意力模块处理;得到的结果,再经过空间注意力模块处理,最后得到调整后特征。
通道注意力模块CAM
CAM的输入是特征图,维度设为HxWxC;其中H是指特征图的高度,W是指宽度,C是指通道数。它的思路流程是:
-
首先对输入的特征图,进行全局池化和平均池化;(在空间维度进行池化,压缩空间尺寸;便于后面学习通道的特征)
-
然后将得到全局和评价池化的结果,送入到多层感知机中MLP学习;(基于MLP学习通道维度的特征,和各个通道的重要性)
-
最后将MLP输出额结果,进行“加“操作,接着经过Sigmoid函数的映射处理,得到最终的“通道注意力值”。
计算公式如下:
空间注意力模块SAM
SAM的输入是CAM输出的特征图。它的思路流程是:
-
首先对输入的特征图,进行全局池化和平均池化;(在通道维度进行池化,压缩通道大小;便于后面学习空间的特征)
-
然后将全局池化和平均池化的结果,按照通道拼接;得到特征图维度是HxWx2
-
最后对拼接的结果,进行卷积操作,得到特征图维度是HxWx1;接着通过激活函数处理。
计算公式如下:
5 自注意力机制
背景:在注意力机制引入计算机视觉前,主要是靠叠加卷积层与池化层来进行特征提取,并扩大感受野。举个例子,在语义分割中,Deeplab系列提出的带有多尺度空洞卷积的 ASPP 模块:
-
ASPP对输入的特征图,采用不同dilation rate 的空洞卷积进行卷积操作,以多个不同比例获取图像的上下文信息。
-
ASPP模块只能利用空洞卷积从像素点周围的少数点去获取上下文信息,而不能形成密集的全局上下文信息。
6 注意力基础
注意力机制原理
注意力机制在语义分割和图像描述生成方面被广泛使用。使用注意力处理任务时,不同信息的重要程度由权值来体现。
注意力机制对不同信息关注度的区分体现在权值分配,注意力机制可以视为查询矩阵、键以及加权平均值构成了多层感知机(Multilayer Perceptron, MLP)。
注意力的思想,类似于寻址。给定 Query,去 Source 中计算 Query和不同 Key 的相关性,即计算Source 中不同 Value 值的权重系数;Value 的加权平均结果可以作为注意力值。
注意力的计算公式如下:
其中Lx代表Source的长度
注意力机制的计算过程
大多数方法采用的注意力机制计算过程可以细化为如下三个阶段。三阶段的注意力机制计算流程:
-
第一阶段是计算 Query和不同 Key 的相关性,即计算不同 Value 值的权重系数
-
第二阶段对上一阶段的输出进行归一化处理,将数值的范围映射到 0和1之间
-
第三阶段,对值和每个值对应的权重相乘的结果做累加操作,从而获得注意力数值
公式化表示:
第一阶段是计算 Query和不同 Key 的相关性,即计算不同 Value 值的权重系数;相关性计算主要包括点积、余弦相似性或者引入神经网络这三种方法。计算方式分别如下:
第二阶段对上一阶段的输出进行归一化处理,将数值的范围映射到0和1之间。其中,ai表第i个值被分为的权重值。
第三阶段,对值和每个值对应的权重相乘的结果做累加操作,从而获得注意力数值。
最后
为什么要学AI大模型
当下,⼈⼯智能市场迎来了爆发期,并逐渐进⼊以⼈⼯通⽤智能(AGI)为主导的新时代。企业纷纷官宣“ AI+ ”战略,为新兴技术⼈才创造丰富的就业机会,⼈才缺⼝将达 400 万!
DeepSeek问世以来,生成式AI和大模型技术爆发式增长,让很多岗位重新成了炙手可热的新星,岗位薪资远超很多后端岗位,在程序员中稳居前列。
与此同时AI与各行各业深度融合,飞速发展,成为炙手可热的新风口,企业非常需要了解AI、懂AI、会用AI的员工,纷纷开出高薪招聘AI大模型相关岗位。
最近很多程序员朋友都已经学习或者准备学习 AI 大模型,后台也经常会有小伙伴咨询学习路线和学习资料,我特别拜托北京清华大学学士和美国加州理工学院博士学位的鲁为民老师给大家这里给大家准备了一份涵盖了AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频 全系列的学习资料,这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】

AI大模型系统学习路线
在面对AI大模型开发领域的复杂与深入,精准学习显得尤为重要。一份系统的技术路线图,不仅能够帮助开发者清晰地了解从入门到精通所需掌握的知识点,还能提供一条高效、有序的学习路径。
但知道是一回事,做又是另一回事,初学者最常遇到的问题主要是理论知识缺乏、资源和工具的限制、模型理解和调试的复杂性,在这基础上,找到高质量的学习资源,不浪费时间、不走弯路,又是重中之重。
AI大模型入门到实战的视频教程+项目包
看视频学习是一种高效、直观、灵活且富有吸引力的学习方式,可以更直观地展示过程,能有效提升学习兴趣和理解力,是现在获取知识的重要途径
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
海量AI大模型必读的经典书籍(PDF)
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。
600+AI大模型报告(实时更新)
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
AI大模型面试真题+答案解析
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费
】
