
Vision Transformer
文章平均质量分 70
关于transformer及注意力机制在计算机视觉领域应用的一些学习
Libertaz
这个作者很懒,什么都没留下…
展开
-
Swin Transformer与Vision Transformer的不同设计
Swin Transformer与Vision Transformer的不同设计图片分割cls_token位置编码attention层 图片分割 Swin使用一个卷积层进行分割,卷积层的滑动补偿等于核的尺寸,因此图片每个像素不会重复框选,卷积核数等于embedding编码长度,同时完成分割与掩码 Vision先老老实实地分割,并把每个patch的像素如(3, 16, 16)拉平,再接入mlp中转化为预定的embedding长度 cls_token Swin不用cls_token,最后使用全局池化产生送原创 2022-05-11 16:49:42 · 757 阅读 · 0 评论 -
Vision Transformer中的数据形状梳理
(b, 3, 224, 224)形状的图片进入Vision Transformer后的形状变化原创 2022-05-11 16:23:06 · 532 阅读 · 0 评论 -
Swin Transformer中的数据形状梳理
(b,3,224,224)图片进入Swin-transformer后具体的形状变化过程原创 2022-05-11 15:45:00 · 1066 阅读 · 0 评论