- arxiv链接
- 自监督训练用到了SimMIM 论文链接。我觉得,SimMIM与MAE的区别在于,前者只是一个1-layer的prediction head,而后者是多层transformer结构的decoder。
- 可参考Swin Transformer V2(CVPR 2022)论文与代码解读。
- microsoft代码实现
- ChristophReich1996代码实现
总结
图中展示了三个创新,从左到右有三处红色结构,分别代表: 1. Continuous relative position bias和Log-spaced coordinates,2. Scaled cos