多头注意力机制代码实现遇到的一些问题

最新推荐文章于 2025-08-14 14:49:40 发布

原创最新推荐文章于 2025-08-14 14:49:40 发布 · 375 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能

我在尝试实现多头注意力机制代码时，在网上发现了俩种对多头的解释，一种是（假设有8头）生成8份不同的Wq，Wk，Wv ，x与他们相乘后就有8份不同Q，K，V。再进过softmax，得到Z0，Z2，.....，Z7，把这些Z拼接起来变成一个大矩阵，再乘以Wo，把Z投影到原来维度。过程就如下图：

但是我在网上找多头注意力的代码时，发现在生成权重矩阵W时，并没有生成8份W，而是只生成了1份W。然后把W切分成立8份，代码如下图

self.qkv=nn.Linear(dim,dim*3,bias=qkv_bais)

这里只生成了一份qkv，q=>(dim,dim)

后来我查资料发现，为了简化矩阵运算，实际上Wq=>(dim,dim=8*c1),

x=>(N,dim)乘以Wq==>(dim,dim=8*c1)

Q=>(N,dim=8*c1)

这里的Q实际就是8份，只不过合并成了一个矩阵，这样可以让在计算量不减的情况下，运行速度跟1个头的运行速度接近。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

data_huzh

关注关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【深度学习的骨架与脉搏】注意力机制（四）（多头注意力机制）

十二月的猫

04-28

8545

前文，我们介绍了自注意力机制：自注意力的QKV是同源的。同源的好处就是更容易发现序列内部的信息，但是也存在一些可以改进的地方。例如：对于一个待分析的序列矩阵，它存在许多方面的特征。此时我们要用一个参数矩阵Wq、Wk去分析并学习出序列中的这么多特征。由于参数矩阵的维度是有限的，所以一次性学习多特征的信息必然会造成信息学习的模糊性，所以作者又提出了多头注意力机制下图为多头注意力机制模型图：它为注意力机制提供了多个投射子空间的可能。

Transformer为什么使用多头注意力机制?

weixin_51702416的博客

05-10

1026

线性变换”是机器学习中针对数据常用的变换方式，通过线性变换可以将数据进行降维、解耦、筛选精炼等操作。而 Transformer 中的“线性变换”有着十分独特且重要的意义，它是导致 Multi-Head Attention 机制得以成功运行的根基。由浅入深，首先简要回顾一下 Q、K、V 三者之间的关系。01先举个不是 100% 贴切，但容易让我们理解的例子。

参与评论您还未登录，请先登录后发表或查看评论

大模型开发基础知识：自注意力机制和多头注意力机制及其代码实现

最新发布

luowang_benren的博客

08-14

939

自注意力机制通过计算序列内部元素的关联权重，实现了对上下文信息的有效捕捉，解决了传统序列模型的诸多缺陷。而多头注意力机制则进一步通过多视角学习，增强了模型对复杂依赖关系的建模能力，成为了现代大模型架构中不可或缺的核心组件。在实际应用中，我们还可以对注意力机制进行各种优化和拓展，比如引入相对位置编码来增强位置信息的建模、采用稀疏注意力来提高计算效率等。深入理解和掌握自注意力机制与多头注意力机制，对于从事大模型开发和研究的人员来说至关重要，它们是打开大模型奥秘之门的一把关键钥匙。

多头自注意力机制的代码实现

m0_48086806的博客

08-26

4550

多头自注意力机制的代码实现

多头注意力机制

weixin_42581560的博客

10-02

547

实际上很简单，自注意力层的输出空间被分解为一组独立的子空间，对这些子空间分别进行学习，也就是说，初始的Q,K,V三组独立的密集投影生成三组独立的向量[1]，每个向量都通过神经注意力进行处理，然后将多个输出拼接为一个输出序列[2]，然后将输出序列经过线性变换[3],每个这样的子空间叫做一个头。密集投影层是可学习层，因此投影过程是可以学习的，独立的头也有助于该层为每个词元学习多组特征，其中每一组内的特征彼此相关，但与其他组的特征几乎无关。(1).Q,K,V三组投影，实际上就是线性变化Y = W X。

多头注意力（MultiHeadAttention）python实现

消极的人永远是对的，积极的人选择勇往直前

03-14

1547

【代码】手撕多头注意力（MultiHeadAttention）python 笔记。

多头注意力代码解读

Drug discovery

01-14

7621

初始化阶段，其中要注意的是hid_dim要和Q、K、V词向量的长度相等 import torch from torch import nn class MultiheadAttention(nn.Module): # n_heads：多头注意力的数量 # hid_dim：每个词输出的向量维度 def __init__(self, hid_dim, n_heads, dropout): super(MultiheadAttention, self).__..

深度学习Python实现基于CNN-BiLSTM-MHA卷积双向长短期记忆网络融合多头注意力机制（MHA）进行多特征分类预测的详细项目实例（含模型描述及示例代码）

06-23

最后，提供了模型各部分的Python代码实现示例，包括输入层与数据预处理、卷积层、双向LSTM和多头注意力机制的具体实现。适合人群：对深度学习有一定了解，特别是对卷积神经网络、LSTM和注意力机制有基础认识的研发...

Matlab实现CGO-CNN-BiGRU-Mutilhead-Attention混沌博弈优化卷积双向门控循环单元融合多头注意力机制多变量多步时间序列预测（含模型描述及示例代码）

03-26

内容概要：本文探讨了一种结合混沌博弈优化(CGO)算法、卷积神经网络(CNN)、双向门控循环单元(BiGRU)和多头注意力机制(Multihead Attention)的多变量多步时间序列预测模型。首先介绍了该项目的背景及其重要性，指出...

Matlab实现TCN-BiGRU-Multihead-Attention多头注意力机制多变量时间序列预测（含模型描述及示例代码）

03-17

内容概要：本文档详细介绍了如何使用 Matlab 实现基于 TCN、BiGRU 和多头注意力机制的多变量时间序列预测模型。文中探讨了现代多变量时间序列预测的重要性及其面临的挑战，深入解析了三种关键组件——临时卷积网络...

collaborative-attention:多头注意力代码

03-20

协作注意力 Jean-Baptiste Cordonnier，Andreas Loukas和Martin Jaggi撰写的论文《多头》的代码。使用子模块git clone --recurse-submodules https://github.com/epfml/collaborative-attention.git克隆此git clone --recurse-submodules https://github.com/epfml/collaborative-attention.git 我们提供了一个python软件包，用于将任何经过预训练的注意力层重新配置为协作注意力层。这允许在不影响模型性能的情况下减小键/查询的维数。我们的因式分解可用于预先训练，以取代串联的头部注意力，也可以在微调之前用作压缩方法。安装克隆此存储库并使用pip安装软件包： # you need to have

transformer(三)多头自注意力

fanre的专栏

05-08

693

https://www.bilibili.com/video/BV1sU4y1G7CN?spm_id_from=333.880.my_history.page.click https://nndl.github.io/ https://nndl.github.io/ppt/chap-%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E4%B8%8E%E5%A4%96%E9%83%A8%E8%AE%B0%E5%BF%86.pptx https://zhuanlan.z

多头注意力机制_哈希算法、爱因斯坦求和约定，这是2020年的注意力机制

weixin_39907316的博客

11-30

1298

机器之心报道参与：思、肖清、一鸣在 Transformer 完全采用注意力机制之后，注意力机制有有了哪些改变？哈希算法、Head 之间的信息交流都需要考虑，显存占用、表征能力都不能忽视。注意力机制是非常优美而神奇的机制，在神经网络「信息过载」的今天，让 NN 学会只关注特定的部分，无疑会大幅度提升任务的效果与效率。借助注意力机制，神经机器翻译、预训练语言模型等任务获得了前所未有的提升。但...

pytorch 中 多头注意力机制 MultiHeadAttention的代码实现及应用

热门推荐

m0_46483236的博客

04-07

3万+

本文将对Scaled Dot-Product Attention，Multi-head attention，Self-attention，Transformer等概念做一个简要介绍和区分。最后对通用的 Multi-head attention 进行代码实现和应用。一、概念： 1. Scaled Dot-Product Attention 在实际应用中，经常会用到 Attention 机制，其中最常用的是Scaled Dot-Product Attention，它是通过计算query和key之间的点.

VisionTransformer（二）—— 多头注意力-Multi-Head Attention及其实现

lzzzzzzm的博客

02-18

1万+

多头注意力-Multi-Head Attention 文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言之前说到VIT中，个人觉得值得学习的地方有两处，一处是Patch Embedding即如何将image当成context处理。第二个就是今天要说的多头注意力-Multi-Head Attention。 VisionTransformer（一）—— Embedding Patched与Word embeddin

自注意力（self-attention）和多头注意力（multi-head attention）

weixin_44378835的博客

06-10

7365

自注意力（self-attention）和多头注意力（multi-head attention）

多头注意力机制 +代码解读

qq_42750193的博客

01-27

2万+

多头注意力机制 总体描述这是原文的的图片，我们可以看到，Q，K，V 是三个固定值，分别通过一个Linear层进行映射，Linear层有3个，使用的注意力评分函数为Scaled Dot-Product Attentio ，有3个代表有3个头，最后将每个头的输出Concat在一起，然后再通过一个Linear层映射成和单头一样的输出。每个头都是注意力，每个头筛选到的信息不同，信息更加丰富，有利于最终模型取得更好的效果代码详解在论文中，多头自注意力是将q，k，v线性映射h次，再进行h次自注意力操作，得到

Transform nmt translate翻译模型代码示例

光英的记忆博客

09-24

1516

import tensorflow_datasets as tfds import tensorflow as tf import time import numpy as np import matplotlib.pyplot as plt #加载数据 examples, metadata = tfds.load('ted_hrlr_translate/pt_to_en', with_i...

【论文笔记】Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks

m0_61899108的博客

03-03

8333

论文题目：Squeeze-and-Excitation Networks 收录：TPAMI 2018 论文地址：https://arxiv.org/abs/1709.01507 项目地址：https://github.com/hujie-frank/SENet 卷积神经网络（CNN）的核心组成部分是卷积算子，它使网络能够通过融合每层局部感受野中的空间和通道信息来构建信息特征。之前的大量研究已经调查了这种关系的空间成分，试图通过提高CNN整个特征层次的空间编码质量来增强CNN的代表性...