- 博客(1)
- 收藏
- 关注
原创 Transformer学习笔记,实现对MNIST分类
缩放之后可选择性(opt)的进行掩码(Mask),之所以进行掩码,如在解码器中,需要对注意力分数应用掩码(Mask),以防止模型在预测下一个词时看到未来的信息。(PS:如有一个序列{1,2,3,4,5},当前掩码确保位置在3,及只能看到1,2,3只考虑1-3之间的关系)。左图为缩放点积注意力(Scaled Dot-Product Attention),输入为三个向量,分别为查询(Q),键值(K),值(V)。首先将输入的Q,K,V进行线性(Linear)变换,投影到不同的表示空间,转换为向量。
2024-11-08 20:56:51
996
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅