先将一张照片分成九块,每一块经过embedding层输出对应的向量
在每一个向量前面加一个新的向量,专门用于分类
在前面讲的多头自注意力机制来说,你输入几个变量,就会输出几个对应的向量,但这里只会输出一个综合考虑之后的一个专门用于分类的向量
动态图:
首先是啥呢,将224* 224* 3的图片经过768个16 * 16卷积核。步长是16,就变成了14 * 14 * 768,然后就是拉成向量,也就是14 * 14 =196个维度是768的向量
加的位置编码也是197 * 768,加上之前的197 * 768不会发生任何变化,把值相加了,位置维度没有变化
训练得到的位置编码
MLP head层
可以简单的理解成一个全连接层