MixText中的attention_mask_extended attention mask-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_52073096/article/details/121872326

MixText中的attention_mask主要用于处理NLP任务中的padding问题。在计算注意力得分后，通过key mask和query mask确保padding部分不参与计算。attention_mask的维度应与隐藏状态一致，通过设置pad位置的权重为-10000来屏蔽无效信息。在注意力计算中，先计算所有score，然后根据序列长度mask掉pad的权重。在实际应用中，attention_mask用于对encoder输出的词向量加权，以获取注意力结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2021SC@SDUSC

Mask大致分为两种

Padding Mask:在NLP任务中，由于句子长度不一致，经常会进行padding操作，在sequence中加入零向量。这部分padding不应该起作用，但是在Attention的计算中用到了softmax等操作，即便0向量也会参与计算（e^0=1),因此需要手动将这部分信息mask才行。padding mask主要包含两种：

key mask:在计算score之后，且softmax之前进行，将值设为很小的数字（如－e^12),这样经过的softmax之后值几乎为0

·query mask:在softmax之后进行，因此对应元素设置为0即可。

if attention_mask is None:
       if input_ids2 is not None:
           attention_mask2 = torch.ones_like(input_ids2)
       attention_mask = torch.ones_like(input_ids)

attention_mask的维度应保持和多头的hidden_states一致

extended_attention_mask = attention_mask.unsqueeze(1).unsqueeze(2)

        extended_attention_mask = extended_attention_mask.to(
            dtype=next(self.parameters()).dtype)

mask部分token的权重直接给-10000，使其在self-att的时候基本不起作用。

extended_attention_mask = (1.0 - extended_attention_mask) * -10000.0

根据input_ids, token_type_ids以及position_ids来确定初始embeddings

embedding_output = self.embeddings(
            input_ids, position_ids=position_ids, token_type_ids=token_type_ids)

在attention中，对attention score进行softmax时，需要考虑到query与pad计算得到的score应该忽略。我们在处理时可以先正常地用高维tensor形式将所有score计算出来，然后根据key的句长将pad所在位置的weight进行mask掉。
下面的代码实现了给定二维tensor X，根据X_len将X中指定位置替换为value值。

def SequenceMask(X, X_len,value=-1e6):
    maxlen = X.size(1)
    mask = torch.arange((maxlen), dtype=torch.float)[None, :] < X_len[:, None]
    X[~mask]=value
    return X

经过softmax获得归一化的权重

attn_weights = F.softmax(similarity, dim=1)

权重应用于encoder输出的所有词对应的词向量上(对应相乘即可)->获得attention结果

attn_applied = torch.bmm(attn_weights.unsqueeze(0),encoder_outputs.unsqueeze(0))

这里的batch_size和seq_len均不为1，其把序列视为一个整体，求Q和V的相似度可使用点乘(V可以视为上面提及的encoder_outputs)，获得的是一个相似度矩阵。

encoder的输入序列和ground_true只需要一个终止符即可，而decoder的输入序列开始必须指定一个起始符，让其根据context预测输出序列的第一个单词，后面根据前一个单词再预测下一个单词