先把图片分成一个个小的patchs,然后经过embedding层,得到图片向量,然后在最左边加一个向量(就是0*那个),用于分类的,然后给每一个向量加上位置信息,即0,1,2,3等等。 embedding hybrid