深度学习算法transformer中的核心multihead_attention代码

槑槑紫

已于 2024-08-01 16:12:38 修改

阅读量364

点赞数 1

分类专栏：深度学习文章标签：深度学习 transformer 人工智能

于 2024-06-12 09:37:57 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_43336108/article/details/139615407

版权

在transformer里面，multihead_attention是核心，原理不再叙述，nn里有nn.MultiheadAttention可以使用，为方便了解原理，手写代码如下

import torch
import torch.nn as nn

class MultiheadAttention(nn.Module):
    # n_heads：多头注意力的数量
    # hid_dim：每个词输出的向量维度
    def __init__(self, hid_dim, n_heads, dropout):
        super(MultiheadAttention, self).__init__()
        self.hid_dim = hid_dim
        self.n_heads = n_heads

        # 强制 hid_dim 必须整除 h
        assert hid_dim % n_heads == 0
        # 定义 W_q 矩阵
        self.w_q = nn.Linear(hid_dim, hid_dim)
        # 定义 W_k 矩阵
        self.w_k = nn.Linear(hid_dim, hid_dim)
        # 定义 W_v 矩阵
        self.w_v = nn.Linear(hid_dim, hid_dim)
        self.fc = nn.Linear(hid_dim, hid_dim)
        self.do = nn.Dropout(dropout)
        # 缩放
        self.scale = torch.sqrt(torch.FloatTensor([hid_dim // n_heads]))

    def forward(self, query, key, value, mask=None):
        # K: [64,10