
Vision Transformer
文章平均质量分 93
ybacm
这个作者很懒,什么都没留下…
展开
-
ICCV 2021 | Swin transformer: Hierarchical vision transformer using shifted windows 阅读笔记
ICCV 2021 best paper,完美将 CNN 与 Transformer 两大系列的工作相结合。原创 2022-06-11 16:29:46 · 365 阅读 · 0 评论 -
Masked Autoencoders Are Scalable Vision Learners | MAE 阅读笔记&部分翻译
该文章就是在 ViT 的基础上做了一些改进 1)mask 了大部分的 patches,以减少图像的冗余信息 2)加入了基于 Transformer 架构的 Decoder 来还原像素 3)加入了 ViT 后续工作的一些训练技巧,来提升模型的鲁棒性。原创 2021-12-12 15:11:03 · 3093 阅读 · 0 评论 -
ICLR 2021 | An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale| ViT 阅读笔记(翻译)
An Image is Worth 16x16 Words: Transformers for Image Recognition at ScaleAuthor Unit: Google Brain, Google ResearchAuthors: Alexey Dosovitskiy∗,†, Lucas Beyer∗, Alexander Kolesnikov∗, Dirk Weissenborn∗, Xiaohua Zhai∗, Thomas Unterthiner, Mostafa Dehghan原创 2021-12-01 22:41:35 · 2666 阅读 · 0 评论