Transformer 两种mask简介

Mask 有两种,Padding-mask,用于处理不定长输入

另一种是 seqence-mask,为了防止未来信息不被泄露

 

padding mask - 处理输入不定长

在 NLP 中,一个常见的问题是输入序列长度不等,一般来说我们会对一个 batch 内的句子进行 PAD,通常值为 0。

 

sequence mask - 防止未来信息泄露

在语言模型中,常常需要从上一个词预测下一个词,sequence mask 是为了使得 decoder 不能看见未来的信息。也就是对于一个序列,在 time_step 为 t 的时刻,我们的解码输出应该只能依赖于 t 时刻之前的输出,而不能依赖 t 之后的输出。因此我们需要想一个办法,把 t 之后的信息给隐藏起来。产生一个上三角矩阵,上三角的值全为 1,下三角的值全为 0,对角线也是 0。把这个矩阵作用在每一个序列上,就可以达到我们的目的啦。值得注意的是,本来 mask 只需要二维的矩阵即可,但是考虑到我们的输入序列都是批量的,所以我们要把原本二维的矩阵扩张成 3 维的张量。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值