Transformer模型：Encoder的self-attention mask实现

最新推荐文章于 2025-05-13 21:24:09 发布

Galaxy.404

最新推荐文章于 2025-05-13 21:24:09 发布

阅读量1.3k

点赞数 23

分类专栏： Transformer 文章标签： transformer 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/weixin_62472350/article/details/140404570

版权

前言

这是对Transformer模型的Word Embedding、Postion Embedding内容的续篇。

视频链接：19、Transformer模型Encoder原理精讲及其PyTorch逐行实现_哔哩哔哩_bilibili

文章链接：Transformer模型：WordEmbedding实现-优快云博客

Transformer模型：Postion Embedding实现-优快云博客

正文

这里是要构造encoder的self-attention mask，首先介绍一下maks.shape，三维：batch_size, max_src_seg_len, max_src_seg_len，看下去。

首先根据我们src的句子长度，使用torch.ones()生成对应的用1填充的张量：

valid_encoder_pos = [torch.ones(L) for L in src_len]

[tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]), tensor([1., 1., 1., 1., 1., 1., 1., 1., 1.])]

因为长度不一样，所以需要使用F.pad()填充到长度一致：

valid_encoder_pos = [F.pad(torch.ones(L),(0,max_src_seg_len-L)) for L in src_len]

[tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0.]), tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0.])]

然后使用torch.unsqueeze()各扩为二维的张量，这一步是为了后面可以得到一个二维矩阵：

valid_encoder_pos = [torch.unsqueeze(F.pad(torch.ones(L),(0,max_src_seg_len-L)),0) for L in src_len]

[tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0.]]), tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0.]])]

使用torch.cat()进行拼接，就得到二维矩阵了：

valid_encoder_pos = torch.cat([torch.unsqueeze(F.pad(torch.ones(L),(0,max_src_seg_len-L)),0) for L in src_len])

tensor([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0.],
[1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0.]])

但是还不够，因为我们要的 maks.shape是三维的，这里只是二维的，我们需要进行扩维，扩第2维，得到2*12*1的张量(batzh_size=2，max_src_seg_len=12)：

valid_encoder_pos = torch.unsqueeze(torch.cat([torch.unsqueeze(F.pad(torch.ones(L),(0, max_src_seg_len-L)), 0) for L in src_len]), 2)

tensor([[[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[0.]],

[[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[1.],
[0.],
[0.],
[0.]]])

到这一步就可以使用矩阵相乘了，这里这么做的原因是因为公式的要求&

最低0.47元/天解锁文章