ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision 摘要 3 Vision-and-Language Transformer 3.1 Model Overview 3.2 Pre-training Objectives 3.3 Whole Word Masking 3.4 Image Augmentation 结论 发布时间(ICML 2021) 标题:无需卷积或区域监督的视觉和语言转换器 摘要 这是一个转折点:CLIP(2021年初)之前的图像特征提取依赖 object detection + resnet 这样两层结构 3 Vision-and-Language