Transformer 两种mask简介

还卿一钵无情泪

于 2020-07-21 11:02:19 发布

阅读量7.1k

点赞数 10

分类专栏： Transformer

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_48185819/article/details/107483838

版权

Transformer 专栏收录该内容

3 篇文章

订阅专栏

Mask 有两种，Padding-mask，用于处理不定长输入

另一种是 seqence-mask，为了防止未来信息不被泄露

padding mask - 处理输入不定长

在 NLP 中，一个常见的问题是输入序列长度不等，一般来说我们会对一个 batch 内的句子进行 PAD，通常值为 0。

sequence mask - 防止未来信息泄露

在语言模型中，常常需要从上一个词预测下一个词，sequence mask 是为了使得 decoder 不能看见未来的信息。也就是对于一个序列，在 time_step 为 t 的时刻，我们的解码输出应该只能依赖于 t 时刻之前的输出，而不能依赖 t 之后的输出。因此我们需要想一个办法，把 t 之后的信息给隐藏起来。产生一个上三角矩阵，上三角的值全为 1，下三角的值全为 0，对角线也是 0。把这个矩阵作用在每一个序列上，就可以达到我们的目的啦。值得注意的是，本来 mask 只需要二维的矩阵即可，但是考虑到我们的输入序列都是批量的，所以我们要把原本二维的矩阵扩张成 3 维的张量。

还卿一钵无情泪

博客等级

码龄5年

79
原创

226
点赞

757
收藏

24
粉丝

关注

私信

热门文章

分类专栏

Paper 11篇
TensorFlow 12篇
BERT 12篇
Transformer 3篇
NLP 1篇
NLP_tutorial 8篇
Hadoop
Knowledge Graph 2篇

展开全部收起

上一篇：: 图解Transformer 原理

下一篇：: RPA - Robotic process automation (机器人流程自动化）

最新评论

Transformer 两种mask简介
breeze_havana: 你彻底把上三角和下三角搞反了
F1 micro macro 区别和详解
忧郁的小鱿鱼丶: 补充一下二分类的情况：纠正一下，只有两个类别预测的结果的正负样本数量相等时，才有F1-score=F1-macro=F1-micro。如下混淆矩阵： [[a, b], [b, a]] 其中横向量代表gt，列向量代表pred 另外这个帖子搬运下面这个帖子，里面有些错误原帖子已经改了，这里还没改。。。 https://blog.youkuaiyun.com/qq_43190189/article/details/105778058
BERT的三个Embedding详解
weixin_44631056: 这个不是权重，是input token，因为只有2句话所以是0和1
conda SSLError
2401_83486159: 我这边输入指令后还是没解决
BERT的三个Embedding详解
zlhhuc: Segment Embeddings 的权重是要学习的把，为啥得到的每一维特征都是 0，或者 1？

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。