自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1)
  • 收藏
  • 关注

原创 Transformer学习笔记,实现对MNIST分类

缩放之后可选择性(opt)的进行掩码(Mask),之所以进行掩码,如在解码器中,需要对注意力分数应用掩码(Mask),以防止模型在预测下一个词时看到未来的信息。(PS:如有一个序列{1,2,3,4,5},当前掩码确保位置在3,及只能看到1,2,3只考虑1-3之间的关系)。左图为缩放点积注意力(Scaled Dot-Product Attention),输入为三个向量,分别为查询(Q),键值(K),值(V)。首先将输入的Q,K,V进行线性(Linear)变换,投影到不同的表示空间,转换为向量。

2024-11-08 20:56:51 996

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除