一文稿定：PyTorch 构建 Transformer 模型

深度学习机器学习

于 2025-05-21 17:13:13 发布

阅读量891

点赞数 17

分类专栏：计算机视觉深度学习人工智能文章标签： python 深度学习人工智能计算机视觉学习 transformer

本文链接：https://blog.youkuaiyun.com/SharePython/article/details/148120009

版权

计算机视觉同时被 3 个专栏收录

28 篇文章

订阅专栏

深度学习

26 篇文章

订阅专栏

人工智能

11 篇文章

订阅专栏

PyTorch 构建 Transformer 模型

Transformer 是现代机器学习中最强大的模型之一。

Transformer 模型是一种基于自注意力机制（Self-Attention）的深度学习架构，它彻底改变了自然语言处理（NLP）领域，并成为现代深度学习模型（如 BERT、GPT 等）的基础。

Transformer 是现代 NLP 领域的核心架构，凭借其强大的长距离依赖建模能力和高效的并行计算优势，在语言翻译和文本摘要等任务中超越了传统的长短期记忆 (LSTM) 网络。

如果你还不了解 Transformer，可以参考：Transformer 模型介绍。

使用 PyTorch 构建 Transformer 模型

构建 Transformer 模型的步骤如下：

1、导入必要的库和模块

导入 PyTorch 核心库、神经网络模块、优化器模块、数据处理工具，以及数学和对象复制模块，为定义模型架构、管理数据和训练过程提供支持。

import torch
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as data
import math
import copy

说明：

torch：PyTorch 的核心库，用于张量操作和自动求导。
torch.nn：PyTorch 的神经网络模块，包含各种层和损失函数。
torch.optim：优化算法模块，如 Adam、SGD 等。
math：数学函数库，用于计算平方根等。
copy：用于深度复制对象。

定义基本构建块：多头注意力、位置前馈网络、位置编码

多头注意力通过多个"注意力头"计算序列中每对位置之间的关系，能够捕捉输入序列的不同特征和模式。

MultiHeadAttention 类封装了 Transformer 模型中常用的多头注意力机制，负责将输入拆分成多个注意力头，对每个注意力头施加注意力，然后将结果组合起来，这样模型就可以在不同尺度上捕捉输入数据中的各种关系，提高模型的表达能力。

说明：
多头注意力机制：将输入分割成多个头，每个头独立计算注意力，最后将结果合并。
缩放点积注意力：计算查询和键的点积，缩放后使用 softmax 计算注意力权重，最后对值进行加权求和。
掩码：用于屏蔽无效位置（如填充部分）。
位置前馈网络（Position-wise Feed-Forward Network）

前馈网络：由两个全连接层和一个 ReLU 激活函数组成，用于进一步处理注意力机制的输出。

位置编码

位置编码用于注入输入序列中每个 token 的位置信息。

使用不同频率的正弦和余弦函数来生成位置编码。

构建编码器块（Encoder Layer）

编码器层：包含一个自注意力机制和一个前馈网络，每个子层后接残差连接和层归一化。

构建解码器模块

解码器层：包含一个自注意力机制、一个交叉注意力机制和一个前馈网络，每个子层后接残差连接和层归一化。

构建完整的 Transformer 模型

说明：

Transformer 模型：包含编码器和解码器部分，每个部分由多个层堆叠而成。
掩码生成：用于屏蔽无效位置和未来信息。
前向传播：依次通过编码器和解码器，最后通过全连接层输出。

模型初始化参数说明：

训练 PyTorch Transformer 模型

使用随机数据训练模型，计算损失并更新参数。

模型评估

评估过程：在验证数据上计算损失，评估模型性能。

优快云粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传优快云，朋友们如果需要可以扫描下方二维码&点击下方优快云官方认证链接免费领取 【保证100%免费】

👉1.2025最新版人工智能CV＋NLP入门学习思维导图👈
要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。
稍微导图链接：https://www.processon.com/view/link/650d85c2ec3841522691f8da

对于从来没有接触过人工智能CV＋NLP的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。
（全套教程文末领取哈）
————————————————

👉2.人工智能CV＋NLP配套视频👈
很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。
800G视频配套资料：

👉3.人工智能CV＋NLP全套学习资料👈

1.python从入门到实战
2.机器学习从入门到项目实战
3.深度学习经典论文
4.数学方向知识汇总
5.人工智能项目实战
。。。。。。（全套教程文末领取哈）

👉4.人工智能CV＋NLP＋大模型经典学习电子书👈
随着人工智能技术的飞速发展，人工智能已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）