一步一步理解大模型：多头注意力机制的作用

最新推荐文章于 2025-03-26 10:38:32 发布

chattyfish

最新推荐文章于 2025-03-26 10:38:32 发布

阅读量6.9k

点赞数 4

文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/chattyfish/article/details/130234363

版权

多头注意力机制通过不同的初始化权重和优化过程学习不同特征，每个头从不同的初始状态开始，通过梯度下降优化学习任务相关的不同方面信息。Dropout和超参数调整进一步增加特征多样性，结合解耦的网络设计，提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多头注意力机制（Multi-Head Attention）是Transformer架构中的核心组件，它在自然语言处理、图像识别等领域取得了显著的成果。多头注意力机制通过将输入数据划分为多个“头”，使模型能够并行捕捉输入数据中的不同特征和模式。

这是一段MHA的代码：

# Define a multi-head attention class
class MultiHeadAttention(nn.Module):
    def __init__(self, d_model, d_k, d_v, n_head, dropout=0.1):
        super(MultiHeadAttention, self).__init__()
        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v
        self.w_qs = nn.Linear(d_model, n_head * d_k)
        self.w_ks = nn.Linear(d_model, n_head * d_k)
        self.w_vs = nn.Linear(d_model, n_head * d_v)
        self.fc = nn.Linear(n_head * d_v, d_model)
        self.attention = ScaledDotProductAttention()
        self.dropout = nn.Dropout(dropout)

    def forward(self, q, k, v, attn_mask=None):
        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
        sz_b, len_q, _ = q.size()
        sz_b, l