目录
0.卷积网络
1.ViT
2.MAE and iGPT
3.Swin Transformer
4.SimCLR
5.MoCo
6.MoCov3
7.CLIP
0.卷积网络
在传统视觉任务中,使用的多为卷积神经网络。
对于图片数据来说,多使用2D卷积网络,比较出名的有ResNet,VGGNet等
对于视频数据来说,使用卷积网络来处理,有以下思路:
a.使用2D卷积网络+循环神经网络
b.使用3D卷积网络
1.ViT
Image -> patches
2.MAE and iGPT
random mask +unsupervised pre-training
3.Swin Transformer
4.SimCLR
contrastive learning + data augmentation
5.MoCo
6.MoCov3
7.CLIP
zero-shot