深度学习系列（7）：Transformer 详解

最新推荐文章于 2025-12-26 22:25:18 发布

原创最新推荐文章于 2025-12-26 22:25:18 发布 · 406 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #transformer #人工智能

深度学习系列专栏收录该内容

14 篇文章

订阅专栏

深度学习系列（7）：Transformer 详解

在前几期中，我们介绍了 RNN 及其变体（LSTM、GRU）在处理序列数据方面的应用。然而，RNN 存在长距离依赖问题，并且难以并行化。Transformer 通过自注意力机制（Self-Attention），彻底改变了自然语言处理（NLP）领域的架构。本期博客将介绍 Transformer 的核心思想及其 PyTorch 实现。

1. Transformer 的核心概念

Transformer 由 Google 在 2017 年提出，论文为《Attention Is All You Need》。其主要特点包括：

完全摒弃 RNN，采用注意力机制处理序列数据。
自注意力机制（Self-Attention），使模型能够关注输入序列中的不同部分。
高度并行化，提升训练效率。

2. Transformer 的结构

Transformer 由 编码器（Encoder） 和 解码器（Decoder） 组成，每一部分都包含多个相同的层。主要结构包括：

多头自注意力（Multi-Head Self-Attention）：让模型在不同语义空间关注不同部分。
前馈神经网络（Feed-Forward Network, FFN）：用于特征变换。
位置编码（Positional Encoding）：弥补 Transformer 失去序列信息的问题。

编码器（Encoder）

编码器的主要任务是将输入序列转换为上下文相关的表示，每个编码器层包括：

多头自注意力
前馈神经网络
层归一化（Layer Normalization）

解码器（Decoder）

解码器的任务是生成输出序列，每个解码器层包括：

Masked 多头自注意力（防止看到未来的信息）
编码器-解码器注意力
前馈神经网络

3. Transformer 的 PyTorch 实现

以下是 PyTorch 官方提供的 nn.Transformer 结构：

import torch
import torch.nn as nn

# 定义 Transformer 模型
class SimpleTransformer(nn.Module):
    def __init__(self, input_size, num_heads, hidden_dim, num_layers):
        super(SimpleTransformer, self).__init__()
        self.encoder_layer = nn.TransformerEncoderLayer(
            d_model=input_size, 
            nhead=num_heads, 
            dim_feedforward=hidden_dim
        )
        self.transformer_encoder = nn.TransformerEncoder(self.encoder_layer, num_layers=num_layers)
        self.fc = nn.Linear(input_size, 1)

    def forward(self, x):
        x = self.transformer_encoder(x)
        x = self.fc(x.mean(dim=1))
        return x

# 创建模型
model = SimpleTransformer(input_size=512, num_heads=8, hidden_dim=2048, num_layers=6)
print(model)