【NLP理论】——为什么需要mask

原创已于 2022-02-10 09:35:44 修改 · 1.4k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#NLP #MASK

于 2019-12-08 22:58:21 首次发布

白话NLP 专栏收录该内容

5 篇文章

订阅专栏

本文探讨了在自然语言处理(NLP)中，为了统一输入数据长度而进行的PAD操作可能带来的问题，包括对mean-pooling、max-pooling和attention机制的影响，并提出了通过mask技术解决这些问题的方法。

1. PAD的问题

通常在训练NLP模型时，batch中的句子长度不相等，这个时候会对没有达到规定长度的句子会进行pad操作（一般用0进行pad），如下图所示（绿色是进行pad的部分）：
在这里插入图片描述
但是PAD会引起以下几个问题。

1.1 mean-pooling的问题

如上图所示，对于矩阵：
$a = [3, 7, 11, 2, 1, 8, 5]$
对a进行mean-pooling：
$mean_a=3+7+11+2+1+8+57=5.2857 mean\_a=\frac{3+7+11+2+1+8+5}{7}=5.2857$
进行pad之后:
$pad\_a=[3, 7, 11, 2, 1, 8, 5, 0, 0, 0]$
对pad_a进行mean-pooling：
$mean_pad_a=3+7+11+2+1+8+510=3.7 mean\_pad\_a=\frac{3+7+11+2+1+8+5}{10}=3.7$
对比mean_a和mean_pad_a发现：pad操作影响mean-pooling。

1.2 max-pooling的问题

在这里插入图片描述
如上图所示，矩阵 $b = [- 1, - 3, - 9, - 11, - 7, - 2, - 8]$ ，pad之后的矩阵 $mean\_b=[-1, -3, -9, -11, -7, -2, -8, 0, 0, 0]$ 。
分别对其进行max-pooling：
$max\_b = -1$
$max\_pad\_b=0$
对比max_a和max_pad_a发现：pad操作影响max-pooling。

1.3 attention的问题

attention技术是目前NLP任务的必备选项，在attention的计算中通常最后一步是使用softmax进行归一化操作，将数值转换为概率。但是如果直接对pad之后的向量进行softmax操作，那么pad的部分也会分摊一部分概率，这就导致有意义的部分（非pad部分）的概率之和不等于1。

2. mask

mask是相对于pad而产生的技术，具备告诉模型一个向量有多长的功效。mask矩阵有如下特点：

mask矩阵是与pad之后的矩阵具有相同的shape；
mask矩阵只有1和0两个值，如果值为1表示对应的pad矩阵中该位置有意义，如果值为0表示对应的pad矩阵中该位置无意义。

在第1部分中的两个向量的mask矩阵（ $m = [1, 1, 1, 1, 1, 1, 1, 0, 0, 0]$ ）如下图所示：
在这里插入图片描述

2.1 解决mean_pooling的问题

$mean_a=sum(pad_a⋅m)sum(m) mean\_a=\frac{sum(pad\_a \cdot m)}{sum(m)}$

2.2 解决max_pooling的问题

在进行max_pooling时，只需要将pad的部分的值足够小即可，可以将mask矩阵中值为0的位置替换的足够小（如： $10^{-10}$ ），则不会影响max_pooling计算。
$max_b=max(pad_b−(1−m)×1010) max\_b=max(pad\_b-(1-m) \times 10^{10})$