今天要读的论文MViTv2仍然来自Facebook AI。
论文和代码地址
论文名称:MViTv2: Improved Multiscale Vision Transformers for Classification and Detection
论文地址:https://arxiv.org/abs/2112.01526
代码地址:https://github.com/facebookresearch/mvit
首先咱们来看MViT存在的缺点。
1)MViT采用的是和ViT一样的绝对位置编码,即物体在图片中移动之后其