【深度学习】(3) Transformer 中的 Encoder 机制,附Pytorch完整代码

大家好,今天和各位分享一下 Transformer 中的 Encoder 部分涉及到的知识点:Word Embedding、Position Embedding、self_attention_Mask

本篇博文是对上一篇 《Transformer代码复现》的解析,强烈建议大家先看一下https://blog.youkuaiyun.com/dgvv4/article/details/125491693

由于 Transformer 中涉及的知识点比较多,之后的几篇会介绍 Decoder 机制、损失计算、实战案例等。


1. Word Embedding

 Word Embedding 可以理解为让句子中的每个单词都能狗对应一个特征向量。

该部分的代码如下:

首先指定特征序列和目标序列的长度,src_len=[2, 4] 代表特征序列中包含 2 个句子,第一个句子中有 2 个单词,第二个句子中有 4 个单词

指定序列的单词库大小为 8,即序列中所有的单词都是在 1~8 之间选取。接下来随机生成每个句子中包含的单词,得到特征序列 src_seq 和目标序列 tgt_seq。

由于每个句子的长度不一样,比如特征序列 src_seq 中第一个句子有 2 个单词,第二个句子有 4 个单词。在送入至 Word Embedding 之前,需要把所有句子的长度给统一在第一个句子后面填充 2 个 0,使得特征序列中的两个句子等长

import torch
from torch import nn
from torch.nn import functional as F
import numpy as np

max_word_idx = 8  # 特征序列和目标序列的单词库由8种单词组成
model_dim = 6  # wordembedding之后,每个单词用长度为6的向量来表示

# ------------------------------------------------------ #
#(1)构建序列,序列的字符以索引的形式表示
# ------------------------------------------------------ #

# 指定序列长度
src_len = torch.Tensor([2, 4]).to(torch.int32)  # 特征序列的长度为2
tgt_len = torch.Tensor([4, 3]).to(torch.int32)  # 目标序列的长度为2
# 特征序列种有2个句子,第一个句子包含2个单词,第二个句子有4个单词
print(src_len, tgt_len)  # tensor([2, 4]) tensor([4, 3])

# 创建序列,句子由八种单词构成,用1~8来表示
src_seq = [ torch.randint(1, max_word_idx, (L,)) for L in src_len ]  # 创建特征序列
tgt_seq = [ torch.randint(1, max_word_idx, (L,)) for L in tgt_len ]  # 创建目标序列
print(src_seq, tgt_seq)
# [tensor([6, 4]), tensor([6, 4, 1, 7])]    # 特征序列,第一个句子有2个单词,第二个句子有4个单词
# [tensor([4, 2, 1, 3]), tensor([6, 5, 1])]  # 目标特征,第一个句子有4个单词,第二个句子有3个单词


# 每个句子的长度都不一样,需要填充0变成相同长度
new_seq = []  # 保存padding后的序列

for seq in src_seq:  # 遍历特征序列中的每个句子
    sent = F.pad(seq, pad=(0, max(src_len)-len(seq)))  # 右侧填充0保证所有句子等长
    sent = torch.unsqueeze(sent, dim=0)  # 变成二维张量[max_src_len]==>[1, max_src_len]
    new_seq.append(sent)  # 保存padding后的序列

for seq in tgt_seq:  # 遍历目标序列中的每个句子
    sent = F.pad(seq, pad=(0, max(tgt_len)-len(seq)))
    sent = torch.unsqueeze(sent, dim=0)  # 变成二维张量[max_tgt_len]==>[1, max_tgt_len]
    new_seq.append(sent)  # 保存padding后的序列

# 由于特征序列和目标序列都保存在list中,变成tensor类型,在axis=0维度堆叠
src_seq = torch.cat(new_seq[:2], dim=0)  # 特征序列
tgt_seq = torch.cat(new_seq[2:], dim=0)  # 目标序列

print(src_seq, src_seq.shape)  # 查看特征序列 shape=[2,4], 序列中有2个句子,每个句子4个单词
print(tgt_seq, tgt_seq.shape)  # 目标序列同上

'''
src_seq = [[6, 4, 0, 0], [6, 4, 1, 7]]
src_seq.shape = [2, 4]
tgt_seq = [[4, 2, 1, 3], [6, 5, 1, 0]]
tgt_seq.shape = [2, 4]
'''

# ------------------------------------------------------ #
#(2)word-embadding
# ------------------------------------------------------ #

# 实例化embedding类, 一共8种单词,考虑到padding填充的0,因此单词表一共9种, 每种单词的特征向量长度为6
src_e
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

立Sir

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值