transformer代码解释

最新推荐文章于 2025-10-12 16:07:34 发布

原创

最新推荐文章于 2025-10-12 16:07:34 发布 · 950 阅读

9 ·

CC 4.0 BY-SA版权

该博客详细介绍了Transformer模型的核心组成部分，包括自注意力机制（Self-Attention）和多头注意力（Multi-Head Attention）。通过类定义展示了如何实现Scaled Dot-Product Attention和Multi-Head Attention，解释了各个部分的功能，如查询（Query）、关键（Key）和值（Value）的作用。Transformer模型还包含了编码器（Encoder）和解码器（Decoder），它们分别由多层EncoderLayer组成，每层包含自注意力和位置编码的位置感知全连接网络（Position-wise Feed Forward）。整个模型旨在捕捉序列中的顺序信息，并在机器翻译等任务中发挥作用。

transformer的核心是自注意机制

`1 self attention实现代码`

class ScaledDotProductAttention(nn.Module): 
    ''' Scaled Dot-Product Attention '''

    def __init__(self, temperature, attn_dropout=0.1):
        super().__init__()
        self.temperature = temperature
        self.dropout = nn.Dropout(attn_dropout)
        #dropout用于防止过拟合，在前向传播的过程中，让某个神经元的激活值以一定的概率停止工作
        #这样可以使模型泛化性更强，因为它不会依赖某些局部的特征

    def forward(self, q, k, v, mask=None):
    # q是查询，to match others；
    #k是关键值，to be matched；
    # v 用于提取的信息，information to be extracted

        attn = torch.matmul(q / self.temperature, k.transpose(2, 3))
        #q与k的转置相乘，被匹配与匹配值的矩阵乘表示了相关性，称之为注意力。
        #transpose一次实现在两个维度进行转置，这里是2 3维转置，k的0维是batch；1维是特征的数量，是channel；2维是对应不同a的参数，3维是多个列向量？

        if mask is not None:
            attn = attn.masked_fill(mask == 0, -1e9) 
            # masked_fill_(mask, value)，用value填充tensor中与mask中值为1位置对应的元素，
            #mask与tensor的形状一致。此处是填充mask中对应为1的位置

        attn = self.dropout(F.softmax(attn, dim=-1))
        #softmax是将张量按照某个维度的每个元素缩放到（0,1）区间，且和为1。
        #softmax回归模型用于分类。再加上防止过拟合的dropout
        output = torch.matmul(attn, v)
        # 注意力与信息值矩阵乘，输出

        return output, attn

2 MultiHeadAttention

class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''

    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
    #类定义对象时，输入头的数量，矩阵的特征维度
        super().__init__()

        self.n_head = n_head
        #head的数量，2个head就是将转移矩阵的数量从1变为2，
        self.d_k = d_k
        #key矩阵的特征数，关键值矩阵， to be matched
        self.d_v = d_v
        #value矩阵的特征数，information to be extracted

        self.w_qs = nn.Linear(d_model, n_head * d_k, bias=False)
        #线性变换，将不确定维度的输入特征转为指定的维度
        self.w_ks = nn.Linear(d_model, n_head * d_k, bias=False)
        #将K矩阵维度转为指定值