[nlp] transformer中的mask机制(encoder:mask pad=inf,decoder:mask下三角矩阵为true)
最新推荐文章于 2025-06-06 14:20:35 发布
Transformer模型中的mask操作分为Encoder和Decoder两部分。Encoder的mask用于处理不同长度的输入序列,通过设置0为负无穷,确保注意力只集中在有效位置。Decoder的mask则采用下三角矩阵,确保在解码过程中只能依赖已生成的前序单词,防止未来信息泄露。这一机制在防止自注意力计算时的越界问题中起关键作用。
订阅专栏 解锁全文
89

被折叠的 条评论
为什么被折叠?



