m0_61448622-优快云博客

原创 Transformer学习笔记，实现对MNIST分类

缩放之后可选择性（opt）的进行掩码（Mask），之所以进行掩码，如在解码器中，需要对注意力分数应用掩码（Mask），以防止模型在预测下一个词时看到未来的信息。（PS:如有一个序列{1，2，3，4，5}，当前掩码确保位置在3，及只能看到1，2，3只考虑1-3之间的关系）。左图为缩放点积注意力（Scaled Dot-Product Attention），输入为三个向量，分别为查询（Q），键值（K），值（V）。首先将输入的Q，K，V进行线性（Linear）变换，投影到不同的表示空间，转换为向量。

2024-11-08 20:56:51 996

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人