什么是VIT

 

先将一张照片分成九块,每一块经过embedding层输出对应的向量

 

在每一个向量前面加一个新的向量,专门用于分类

在前面讲的多头自注意力机制来说,你输入几个变量,就会输出几个对应的向量,但这里只会输出一个综合考虑之后的一个专门用于分类的向量

动态图:

 

 

 

 

首先是啥呢,将224* 224* 3的图片经过768个16 * 16卷积核。步长是16,就变成了14 * 14 * 768,然后就是拉成向量,也就是14 * 14 =196个维度是768的向量

加的位置编码也是197 * 768,加上之前的197 * 768不会发生任何变化,把值相加了,位置维度没有变化

训练得到的位置编码

 

 

 

MLP head层

可以简单的理解成一个全连接层

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值