ICLR 2020 VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS
动机在视觉和文本领域,在一系列任务上通过预训练获得通用特征都取得了显著的成效。然而,在视觉-语言任务(V-L任务)中经过预训练的通用表示模型仍然匮乏(大部分是任务特定的模型)。对适用于一个领域中各种任务的通用特征表示进行预训练是深度网络成功的一个标志。首先,在计算机视觉领域,为ImageNet分类设计并预训练的主干网被发现能够有效地改进众多的图像识别任务。近年来,在自然语言处理(NLP)领域,Transformer网络在大型语言语料库excel上用“masked语言模型”(MLM)目标进行了多种NL
原创
2021-04-20 01:26:17 ·
598 阅读 ·
0 评论