Transformer细节(一)——掩码机制

多学学多写写

已于 2024-06-22 11:42:16 修改

阅读量2.3k

点赞数 14

文章标签： transformer 深度学习人工智能

于 2024-06-22 10:25:10 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_47129891/article/details/139878021

版权

在Transformer模型的解码器中，掩码机制（masking）起着至关重要的作用，特别是在训练阶段。掩码机制用于确保解码器在计算自注意力时，只能使用当前位置之前的词（包括当前位置），而不能看到当前位置之后的词。这是为了保持因果关系，防止信息泄漏。下面详细说明解码器的掩码机制是如何起作用的，以及如何实现每个时间步的并行处理。

一、掩码机制的作用

在解码器的自注意力层中，掩码机制的主要作用是防止解码器在计算注意力时看到未来的词（即当前位置之后的词），确保生成序列的每个位置只依赖于它之前的位置，从而保持序列生成的因果关系。

二、掩码的具体实现

掩码机制通过一个上三角矩阵来实现，这个矩阵中的元素表示哪些位置应该被掩盖（mask）。具体步骤如下：

1. 生成掩码矩阵

假设目标序列长度为 \( T \)，生成一个 \( T \times T \) 的掩码矩阵 \( M \)，其中 \( M_{ij} \) 表示第 \( i \) 个位置是否可以看到第 \( j \) 个位置的词。
这个矩阵是一个上三角矩阵的取反，表示第 \( i \) 个位置只能看到自己和之前的位置：

\[
M_{ij} = \begin{cases}
0 & \text{if } i \geq j \\
-\infty & \text{if