大家好,今天和各位分享一下 Transformer 中的 Encoder 部分涉及到的知识点:Word Embedding、Position Embedding、self_attention_Mask
本篇博文是对上一篇 《Transformer代码复现》的解析,强烈建议大家先看一下:https://blog.youkuaiyun.com/dgvv4/article/details/125491693
由于 Transformer 中涉及的知识点比较多,之后的几篇会介绍 Decoder 机制、损失计算、实战案例等。
1. Word Embedding
Word Embedding 可以理解为让句子中的每个单词都能狗对应一个特征向量。
该部分的代码如下:
首先指定特征序列和目标序列的长度,src_len=[2, 4] 代表特征序列中包含 2 个句子,第一个句子中有 2 个单词,第二个句子中有 4 个单词。
指定序列的单词库大小为 8,即序列中所有的单词都是在 1~8 之间选取。接下来随机生成每个句子中包含的单词,得到特征序列 src_seq 和目标序列 tgt_seq。
由于每个句子的长度不一样,比如特征序列 src_seq 中第一个句子有 2 个单词,第二个句子有 4 个单词。在送入至 Word Embedding 之前,需要把所有句子的长度给统一,在第一个句子后面填充 2 个 0,使得特征序列中的两个句子等长。
import torch
from torch import nn
from torch.nn import functional as F
import numpy as np
max_word_idx = 8 # 特征序列和目标序列的单词库由8种单词组成
model_dim = 6 # wordembedding之后,每个单词用长度为6的向量来表示
# ------------------------------------------------------ #
#(1)构建序列,序列的字符以索引的形式表示
# ------------------------------------------------------ #
# 指定序列长度
src_len = torch.Tensor([2, 4]).to(torch.int32) # 特征序列的长度为2
tgt_len = torch.Tensor([4, 3]).to(torch.int32) # 目标序列的长度为2
# 特征序列种有2个句子,第一个句子包含2个单词,第二个句子有4个单词
print(src_len, tgt_len) # tensor([2, 4]) tensor([4, 3])
# 创建序列,句子由八种单词构成,用1~8来表示
src_seq = [ torch.randint(1, max_word_idx, (L,)) for L in src_len ] # 创建特征序列
tgt_seq = [ torch.randint(1, max_word_idx, (L,)) for L in tgt_len ] # 创建目标序列
print(src_seq, tgt_seq)
# [tensor([6, 4]), tensor([6, 4, 1, 7])] # 特征序列,第一个句子有2个单词,第二个句子有4个单词
# [tensor([4, 2, 1, 3]), tensor([6, 5, 1])] # 目标特征,第一个句子有4个单词,第二个句子有3个单词
# 每个句子的长度都不一样,需要填充0变成相同长度
new_seq = [] # 保存padding后的序列
for seq in src_seq: # 遍历特征序列中的每个句子
sent = F.pad(seq, pad=(0, max(src_len)-len(seq))) # 右侧填充0保证所有句子等长
sent = torch.unsqueeze(sent, dim=0) # 变成二维张量[max_src_len]==>[1, max_src_len]
new_seq.append(sent) # 保存padding后的序列
for seq in tgt_seq: # 遍历目标序列中的每个句子
sent = F.pad(seq, pad=(0, max(tgt_len)-len(seq)))
sent = torch.unsqueeze(sent, dim=0) # 变成二维张量[max_tgt_len]==>[1, max_tgt_len]
new_seq.append(sent) # 保存padding后的序列
# 由于特征序列和目标序列都保存在list中,变成tensor类型,在axis=0维度堆叠
src_seq = torch.cat(new_seq[:2], dim=0) # 特征序列
tgt_seq = torch.cat(new_seq[2:], dim=0) # 目标序列
print(src_seq, src_seq.shape) # 查看特征序列 shape=[2,4], 序列中有2个句子,每个句子4个单词
print(tgt_seq, tgt_seq.shape) # 目标序列同上
'''
src_seq = [[6, 4, 0, 0], [6, 4, 1, 7]]
src_seq.shape = [2, 4]
tgt_seq = [[4, 2, 1, 3], [6, 5, 1, 0]]
tgt_seq.shape = [2, 4]
'''
# ------------------------------------------------------ #
#(2)word-embadding
# ------------------------------------------------------ #
# 实例化embedding类, 一共8种单词,考虑到padding填充的0,因此单词表一共9种, 每种单词的特征向量长度为6
src_e