本文将介绍如下内容:
- transformer中的mask机制
- Causal Decoder
- Prefix Decoder
- Encoder Decoder
- 总结
一、transformer中的mask机制
在Transformer模型中,mask机制是一种用于在self-attention中的技术,用以控制不同token之间的注意力交互。具体来说,Transformer中使用两种类型的mask:padding mask 和sequence mask**。**
1、Padding mask(填充掩码)
Padding mask(填充掩码):在自注意力机制中,句子中的所有单词都会参与计算。但是,在实际的句子中,往往会存在填充符(比如-1),用来填充句子长度不够的情况。Padding mask就是将这些填充符对应的位置标记为0,以便在计算中将这些位置的单词忽略掉。
例如,假设我们有一个batch_size为3、句子长度为5的输入序列:
[
[1, 2, 3, -1, -1],
[2, 3, -1,