【深度学习】(3) Transformer 中的 Encoder 机制，附Pytorch完整代码

最新推荐文章于 2025-03-12 14:36:53 发布

立Sir

最新推荐文章于 2025-03-12 14:36:53 发布

阅读量2.8k

点赞数 7

分类专栏： pyTorch深度学习文章标签： pytorch 深度学习神经网络 transformer nlp

本文链接：https://blog.youkuaiyun.com/dgvv4/article/details/125507206

版权

大家好，今天和各位分享一下 Transformer 中的 Encoder 部分涉及到的知识点：Word Embedding、Position Embedding、self_attention_Mask

本篇博文是对上一篇《Transformer代码复现》的解析，强烈建议大家先看一下：https://blog.youkuaiyun.com/dgvv4/article/details/125491693

由于 Transformer 中涉及的知识点比较多，之后的几篇会介绍 Decoder 机制、损失计算、实战案例等。

1. Word Embedding

Word Embedding 可以理解为让句子中的每个单词都能狗对应一个特征向量。

该部分的代码如下：

首先指定特征序列和目标序列的长度，src_len=[2, 4] 代表特征序列中包含 2 个句子，第一个句子中有 2 个单词，第二个句子中有 4 个单词。

指定序列的单词库大小为 8，即序列中所有的单词都是在 1~8 之间选取。接下来随机生成每个句子中包含的单词，得到特征序列 src_seq 和目标序列 tgt_seq。

由于每个句子的长度不一样，比如特征序列 src_seq 中第一个句子有 2 个单词，第二个句子有 4 个单词。在送入至 Word Embedding 之前，需要把所有句子的长度给统一，在第一个句子后面填充 2 个 0，使得特征序列中的两个句子等长。

import torch
from torch import nn
from torch.nn import functional as F
import numpy as np

max_word_idx = 8  # 特征序列和目标序列的单词库由8种单词组成
model_dim = 6  # wordembedding之后，每个单词用长度为6的向量来表示

# ------------------------------------------------------ #
#（1）构建序列，序列的字符以索引的形式表示
# ------------------------------------------------------ #

# 指定序列长度
src_len = torch.Tensor([2, 4]).to(torch.int32)  # 特征序列的长度为2
tgt_len = torch.Tensor([4, 3]).to(torch.int32)  # 目标序列的长度为2
# 特征序列种有2个句子，第一个句子包含2个单词，第二个句子有4个单词
print(src_len, tgt_len)  # tensor([2, 4]) tensor([4, 3])

# 创建序列，句子由八种单词构成，用1~8来表示
src_seq = [ torch.randint(1, max_word_idx, (L,)) for L in src_len ]  # 创建特征序列
tgt_seq = [ torch.randint(1, max_word_idx, (L,)) for L in tgt_len ]  # 创建目标序列
print(src_seq, tgt_seq)
# [tensor([6, 4]), tensor([6, 4, 1, 7])]    # 特征序列，第一个句子有2个单词，第二个句子有4个单词
# [tensor([4, 2, 1, 3]), tensor([6, 5, 1])]  # 目标特征，第一个句子有4个单词，第二个句子有3个单词


# 每个句子的长度都不一样，需要填充0变成相同长度
new_seq = []  # 保存padding后的序列

for seq in src_seq:  # 遍历特征序列中的每个句子
    sent = F.pad(seq, pad=(0, max(src_len)-len(seq)))  # 右侧填充0保证所有句子等长
    sent = torch.unsqueeze(sent, dim=0)  # 变成二维张量[max_src_len]==>[1, max_src_len]
    new_seq.append(sent)  # 保存padding后的序列

for seq in tgt_seq:  # 遍历目标序列中的每个句子
    sent = F.pad(seq, pad=(0, max(tgt_len)-len(seq)))
    sent = torch.unsqueeze(sent, dim=0)  # 变成二维张量[max_tgt_len]==>[1, max_tgt_len]
    new_seq.append(sent)  # 保存padding后的序列

# 由于特征序列和目标序列都保存在list中，变成tensor类型，在axis=0维度堆叠
src_seq = torch.cat(new_seq[:2], dim=0)  # 特征序列
tgt_seq = torch.cat(new_seq[2:], dim=0)  # 目标序列

print(src_seq, src_seq.shape)  # 查看特征序列 shape=[2,4], 序列中有2个句子，每个句子4个单词
print(tgt_seq, tgt_seq.shape)  # 目标序列同上

'''
src_seq = [[6, 4, 0, 0], [6, 4, 1, 7]]
src_seq.shape = [2, 4]
tgt_seq = [[4, 2, 1, 3], [6, 5, 1, 0]]
tgt_seq.shape = [2, 4]
'''

# ------------------------------------------------------ #
#（2）word-embadding
# ------------------------------------------------------ #

# 实例化embedding类, 一共8种单词，考虑到padding填充的0，因此单词表一共9种, 每种单词的特征向量长度为6
src_e