An image is worth 16x16 words:Transformers for image recognition at scale(论文阅读)
被美东时间折磨的一天????今天参加Journal Club,收获满满。An image is worth 16x16 words:Transformers for image recognition at scale1、注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持他们的整体结构不变。2、ViT模型在mid-sized的数据上训练,精度比同等规模的ResNet网络低几个百分点; 在大规模的数据集上训练,迁移到较小规模的数据集上结果>= state of
原创
2020-11-16 23:18:36 ·
4454 阅读 ·
2 评论