Transformer结构介绍和Pyotrch代码实现

最新推荐文章于 2025-10-13 13:50:36 发布

原创最新推荐文章于 2025-10-13 13:50:36 发布 · 1.2k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

Pytorch语法专栏收录该内容

8 篇文章

订阅专栏

本文介绍了Transformer模型的基本结构，包括Encoder和Decoder的组成，以及注意力机制在其中的作用。并提供了PyTorch实现的简化代码，展示了如何构建和使用Transformer模型进行自然语言处理任务。

部署运行你感兴趣的模型镜像

Transformer结构介绍和Pyotrch代码实现

关注B站查看更多手把手教学：

肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频 (bilibili.com)

基本结构介绍

Transformer结构是近年来自然语言处理（NLP）领域的重要突破，它完全基于注意力机制（Attention Mechanism）来实现，克服了传统RNN模型无法并行计算以及容易丢失长距离依赖信息的问题。

Transformer模型主要由Encoder和Decoder两部分组成。这两部分都包含多个相同的层，每层都由一个自注意力（Self-Attention）子层和一个前馈神经网络（Feed Forward Neural Network）子层组成。在每个子层之间还使用了残差连接（Residual Connection）和层归一化（Layer Normalization）。

在Encoder部分，输入序列首先经过Word Embedding和Positional Encoding，然后输入到多个Encoder层中。在每个Encoder层中，输入序列会先经过Self-Attention子层，该子层会计算输入序列中每个位置的表示对所有位置的依赖关系，得到加权后的表示。然后，加权后的表示会经过Feed Forward Neural Network子层进行非线性变换。最后，通过残差连接和层归一化得到该层的输出。

在Decoder部分，与Encoder类似，输入序列也会经过Word Embedding和Positional Encoding。但是，在Decoder的Self-Attention子层中，需要考虑到不能看到未来信息的问题，因此需要使用Masked Self-Attention。此外，Decoder还需要一个Encoder-Decoder Attention子层来计算对Encoder输出的依赖关系。最后，通过多个Decoder层的堆叠得到最终的输出序列。

Pytorch代码实现

以下是Transformer结构的一个简化版实现，包括Encoder和Decoder部分，以及相应的代码注释。请注意，为了简洁起见，这个实现省略了一些高级功能，如dropout、层标准化中的可学习参数等。

import torch  
import torch.nn as nn  
import torch.nn.functional as F  
  
# Transformer模型  
class Transformer(nn.Module):  
    def __init__(self, d_model, nhead, num_encoder_layers, num_decoder_layers, dim_feedforward=2048):  
        super(Transformer, self).__init__()  
        # Encoder部分  
        self.encoder = Encoder(d_model, nhead, num_encoder_layers, dim_feedforward)  
        # Decoder部分  
        self.decoder = Decoder(d_model, nhead, num_decoder_layers, dim_feedforward)  
  
    def forward(self, src, tgt, src_mask=None, tgt_mask=None, memory_mask=None, src_key_padding_mask=None, tgt_key_padding_mask=None):  
        # Encoder得到memory  
        memory = self.encoder(src, src_mask=src_mask, src_key_padding_mask=src_key_padding_mask)  
        # Decoder得到输出  
        output = self.decoder(tgt, memory, tgt_mask=tgt_mask, memory_mask=memory_mask, tgt_key_padding_mask=tgt_key_padding_mask)  
        return output  
  
# Encoder  
class Encoder(nn.Module):  
    def __init__(self, d_model, nhead, num_layers, dim_feedforward=2048):  
        super(Encoder, self).__init__()  
        # 多层EncoderLayer堆叠  
        self.layers = nn.ModuleList([  
            EncoderLayer(d_model, nhead, dim_feedforward)  
            for _ in range(num_layers)  
        ])  
  
    def forward(self, src, src_mask=None, src_key_padding_mask=None):  
        # 逐层通过EncoderLayer  
        for layer in self.layers:  
            src = layer(src, src_mask=src_mask, src_key_padding_mask=src_key_padding_mask)  
        return src  
  
# EncoderLayer  
class EncoderLayer(nn.Module):  
    def __init__(self, d_model, nhead, dim_feedforward=2048):  
        super(EncoderLayer, self).__init__()  
        # Self-Attention子层  
        self.self_attn = nn.MultiheadAttention(d_model, nhead)  
        # 前馈神经网络子层  
        self.linear1 = nn.Linear(d_model, dim_feedforward)  
        self.linear2 = nn.Linear(dim_feedforward, d_model)  
        # 残差连接和层归一化（这里省略了层归一化）  
        # 注意：在实际应用中，应该加上层归一化和dropout  
  
    def forward(self, src, src_mask=None, src_key_padding_mask=None):  
        # Self-Attention  
        attn_output, _ = self.self_attn(src, src, src, attn_mask=src_mask, key_padding_mask=src_key_padding_mask)  
        src = src + attn_output  # 残差连接  
        # FFN  
        ffn_output = F.relu(self.linear1(src))  
        ffn_output = self.linear2(ffn_output)  
        src = src + ffn_output  # 残差连接  
        return src  
  
# Decoder  
class Decoder(nn.Module):  
    def __init__(self, d_model, nhead, num_layers, dim_feedforward=2048):  
        super(Decoder, self).__init__()  
        # 多层DecoderLayer堆叠  
        self.layers = nn.ModuleList([  
            DecoderLayer(d_model, nhead, dim_feedforward)  
            for _ in range(num_layers)  
        ])  
  
    def forward(self, tgt, memory, tgt_mask=None, memory_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None):  
        # 逐层通过DecoderLayer  
        for layer in self.layers:  
            tgt = layer(tgt, memory, tgt_mask=tgt_mask, memory_mask=memory_mask,  
                        tgt_key_padding_mask=tgt_key_padding_mask, memory_key_padding_mask=memory_key_padding_mask)  
        return tgt  
  
# DecoderLayer  
class DecoderLayer(nn.Module):  
    def __init__(self, d_model, nhead, dim_feedforward=2048):  
        super(DecoderLayer, self).__init__()  
        # Self-Attention子层（Masked）  
        self.self_attn = nn.MultiheadAttention(d_model, nhead)  
        # Encoder-Decoder Attention子层  
        self.encoder_decoder_attn = nn.MultiheadAttention(d_model, nhead)  
        # 前馈神经网络子层  
        self.linear1 = nn.Linear(d_model, dim_feedforward)  
        self.linear2 = nn.Linear(dim_feedforward, d_model)  
        # 残差连接和层归一化（这里省略了层归一化）  
        # 注意：在实际应用中，应该加上层归一化和dropout  
  
    def forward(self, tgt, memory, tgt_mask=None, memory_mask=None, tgt_key_padding_mask=None, memory_key_padding_mask=None):  
        # Self-Attention（Masked）  
        attn_output, _ = self.self_attn(tgt, tgt, tgt, attn_mask=tgt_mask, key_padding_mask=tgt_key_padding_mask)  
        tgt = tgt + attn_output  # 残差连接  
        # Encoder-Decoder Attention  
        attn_output, _ = self.encoder_decoder_attn(tgt, memory, memory, attn_mask=memory_mask, key_padding_mask=memory_key_padding_mask)  
        tgt = tgt + attn_output  # 残差连接  
        # FFN  
        ffn_output = F.relu(self.linear1(tgt))  
        ffn_output = self.linear2(ffn_output)  
        tgt = tgt + ffn_output  # 残差连接  
        return tgt  
  
# 示例使用  
d_model = 512  # 输入和输出的维度  
nhead = 8     # 注意力头数  
num_encoder_layers = 6  # Encoder层数  
num_decoder_layers = 6  # Decoder层数  
dim_feedforward = 2048  # 前馈神经网络维度  
  
# 实例化模型  
model = Transformer(d_model, nhead, num_encoder_layers, num_decoder_layers, dim_feedforward)  
  
# 假设输入数据（这里只是示例，实际数据需要预处理）  
src = torch.rand(10, 32, d_model)  # (序列长度, 批量大小, 特征维度)  
tgt = torch.rand(10, 32, d_model)  # 同上  
  
# 前向传播（注意：这里的输入没有经过嵌入层和位置编码，实际应用中需要添加）  
output = model(src, tgt)  
  
print(output.shape)  # 应该与tgt的形状相同，即(序列长度, 批量大小, 特征维度)

注意：上面的代码只是一个结构上的骨架，它缺少了嵌入层（Embedding Layer）、位置编码（Positional Encoding）、层归一化（Layer Normalization）、dropout等关键组件，这些在实际应用中都是必要的。此外，输入数据src和tgt在这里只是随机生成的张量，用于演示模型的输入和输出形状。在实际应用中，你需要用实际的嵌入向量和位置编码来替换这些随机数据。同时，你也需要处理padding和mask，以确保模型能够正确地处理变长序列。

您可能感兴趣的与本文相关的镜像