
Attention讲解专栏(原理以及计算过程)
文章平均质量分 95
Attention专栏(原理以及计算过程)
强化学习曾小健3
"主号:强化学习曾小健;副号:强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。优快云全站80强博客、总近500w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
[AI深度追问]空间金字塔池化网络(SPPNet):用于图像分类和目标检测的深度神经网络
SPPNet通过空间金字塔池化(Spatial Pyramid Pooling,SPP)模块将输入图像转化为固定长度的特征向量,从而避免了全连接层需要固定输入大小的问题。这是因为空间金字塔池化层的计算量是对每个金字塔格子内的特征图做最大池化或平均池化,每个格子内的特征图大小为 hi×wi×C,计算量为 hiwiC,而金字塔格子的数量为 LHW,因此总的计算量为 LHWK。这是因为金字塔格子的输出通道数为 K,因此每个格子的输出大小为 1×1×K,而金字塔格子的数量为 LHW,因此总的空间复杂度为 HWK。原创 2024-11-30 17:16:40 · 1020 阅读 · 0 评论 -
多头注意力Attention中qkv分别是什么
Query (Q): 查询向量,用于表示当前要关注的信息。每个注意力头会根据输入序列生成自己的查询向量。Q 向量用于与K 向量进行相似度计算,以确定哪些值(V)应该被关注。Key (K): 键向量,代表输入序列中每个元素的特征。每个输入元素都有一个对应的 K 向量,Q 与 K 的相似度决定了该元素对当前查询的重要性。Value (V): 值向量,实际包含的信息。每个 K 向量都有一个对应的 V 向量,最终的输出是通过加权求和 V 向量得到的,其中权重由 Q 和 K 的相似度决定。原创 2024-11-30 17:56:59 · 2606 阅读 · 0 评论 -
能否详细解释一下Multi-head Attention中不同head的作用?
在 Multi-head Attention 中,每个注意力头都有自己的可学习投影矩阵,这些矩阵用于将输入的查询(Query)、键(Key)和值(Value)向量映射到不同的特征空间。查询向量 (Q): 通过线性变换 Q=XWQ键向量 (K): 通过线性变换 K=XWK值向量 (V): 通过线性变换 V=XWV其中,WQ,WK,WVWQ,WK,WV 是每个头独立的可学习权重矩阵,XX 是输入序列的嵌入表示。这些矩阵将输入数据投影到不同的子空间中,使得每个头能够学习到不同的特征表示135。原创 2024-11-30 17:48:23 · 1001 阅读 · 0 评论 -
Attention计算过程
的完整公式为:点积计算相似度(Q 和 K 的点积),衡量 Query 和 Key 的匹配程度。缩放处理(Scale),避免数值不稳定。可选 Mask:在需要时屏蔽特定位置。Softmax:将相似度转换为注意力权重(概率分布)。加权求和(与 V 相乘),生成注意力输出。通过这个机制,模型可以动态地关注输入序列中与当前位置相关的信息,从而实现高效的特征提取和表示学习。点积(Dot Product)是两个向量之间的一种数学操作,用于衡量两个向量的相似性。原创 2024-11-30 18:10:34 · 1372 阅读 · 0 评论