《Large-scale Multi-modal Pre-trained Models: A Comprehensive Survey》中文校对版

文章汉化系列目录



摘要

随着对通用深度模型的迫切需求,许多预训练的大型模型应运而生,如双向编码器表示(BERT)、视觉变换器(ViT)、生成预训练变换器(GPT)等。受到这些模型在单一领域(如计算机视觉和自然语言处理)成功的启发,多模态预训练大模型近年来也引起了越来越多的关注。在本研究中,我们对这些模型进行了全面的综述,并希望本文能为新研究者提供新的见解,帮助他们跟踪最前沿的工作。具体来说,我们首先通过回顾自然语言处理、计算机视觉和语音中的常规深度学习和预训练工作,介绍多模态预训练的背景。然后,我们介绍多模态预训练模型(MM-PTM)的任务定义、关键挑战和优势,并重点讨论数据、目标、网络架构和知识增强预训练的MM-PTM。接下来,我们介绍用于验证大规模MM-PTM的下游任务,包括生成、分类和回归任务。我们还对代表性下游任务的模型参数和结果进行了可视化和分析。最后,我们指出了该主题可能的研究方向,这些方向可能对未来的工作有所帮助。此外,我们还维护了一个持续更新的大型预训练多模态大模型的论文列表:https://github.com/wangxiao5791509/MultiModal_BigModels_Survey

关键词:多模态(MM)、预训练模型(PTM)、信息融合、表示学习、深度学习。

引言

 随着AlexNet在ImageNet竞赛中的突破性表现[1],人工智能领域得到了快速发展。许多具有代表性的深度神经网络相继被提出,如VGG[3]、ResNet[4]、Inception[5]和长短时记忆网络(LSTM)[6]。研究人员通常会收集并标注一些样本来完成特定任务,并基于大规模数据集(例如计算机视觉领域的ImageNet[2],自然语言处理领域的GloVe[7]和skip-thought向量[8])上的预训练骨干网络来训练他们的模型。与传统的手工特征提取方法相比,这种端到端的方式能很好地解决许多任务,如目标检测、图像分割和识别。然而,所获得深度模型的泛化能力仍然有限。尽管收集和标注更大规模的数据集可以在一定程度上解决这些问题,但这一过程既昂贵又繁琐。

 为了解决这一问题,Vaswani等人[9]提出了Transformer网络,在机器翻译任务上取得了新的最先进(SOTA)表现。此后,基于大规模语料库的自监督预训练,并在下游任务上进行微调的思路,吸引了越来越多研究者的关注。许多遵循这种范式的预训练大模型相继被提出,如双向编码器表示(BERT)[10]、生成预训练变换器(GPT)[11, 12]、T5[13]、XLNet[14],这些模型也为计算机视觉(CV)领域的预训练研究带来了新的研究亮点。越来越多的大规模自然语言处理(NLP)和计算机视觉(CV)模型展示了预训练-微调范式的强大效果,包括视觉变换器(ViT)[15]和Swin-transformer[16]。

 尽管这些进展为人工智能的发展注入了新的动力,但单一模态所带来的问题仍然难以解决。研究人员尝试融合更多模态来弥合深度模型的数据差距。许多基于多模态融合的任务也在传统的深度学习方法中得到探索,例如RGB图像、深度图、自然语言、点云、音频、事件流等。许多大规模预训练多模态模型[17−23]相继被提出,并在下游任务上接连创造了新的SOTA,如图1和表1所示。本文将对这些工作进行全面回顾,旨在帮助新研究者快速了解这一领域的历史与最新发展。
在这里插入图片描述

图1 多模态预训练大模型的时间轴里程碑,从2019年到2022年6月,涵盖了多模态数据集(由橙色箭头标示)和代表性模型(由蓝色箭头标示)。紫色字体表示数据集包含中文文本(其他数据集包含英文文本)。以酒红色高亮的模型表示这些模型是基于超过两种模态进行训练的。

在这里插入图片描述

表1 相关单模态和多模态预训练综述的总结。SC 和 DC 分别代表单列和双列。Pub. 是出版物的缩写。

我们综述的组织结构 在本文中,我们首先在第2节回顾了多模态预训练技术的背景,介绍了从传统深度学习范式到单模态任务中的预训练,包括自然语言处理、计算机视觉和自动语音处理。接着,我们在第3.1至3.2节中重点讨论了多模态预训练模型(MM-PTMs)的任务定义、关键挑战和优势。第3.3至3.6节回顾了该技术的关键组件,包括大规模数据、网络架构、优化目标和知识增强预训练。为了验证预训练模型的有效性,许多下游任务被用于定量评估。在第4节中,我们详细回顾了这些任务的任务定义和评估指标。在第5节中,我们回顾了用于训练的模型参数和硬件,并报告了几个代表性下游任务的实验结果。最后,在第6节中,我们总结了本综述并提出了多个需要研究的研究方向。本综述的架构如图2所示。

在这里插入图片描述

与现有综述的差异
尽管已有两篇综述[24, 25]针对多模态预训练模型(MM-PTMs)进行了研究,但我们的综述与现有综述之间的差异可以总结如下:

  • 范围:现有的多模态综述[24, 25]仅关注视觉-语言任务,而多模态信息问题是一个更广泛的研究主题。本文通过介绍更多的模态,如音频、视频、表格等,比上述综述更具综合性。
  • 时效性:本文介绍了最新的多模态预训练数据集和算法(从2019年到2022年6月),属于一篇较长的综述论文,而现有综述则属于较短的论文。
  • 新见解:通过从不同角度对现有的多模态预训练模型进行分类和分析,本文能够帮助读者从细节和高层次两个角度掌握前沿方法和技术。此外,我们提出的MM-PTM研究方向具有深思熟虑,并将为后续研究提供新的线索。

2 背景

2.1 传统深度学习

 随着AlexNet[1]的发布,一系列深度学习模型在人工智能领域得到了提出。这些深度模型在拟合复杂数据方面展现了比传统机器学习模型更好的能力。从其发展的角度(LeNet[50]、AlexNet[1]、VGG[3]、ResNet[4]、DenseNet[51])来看,我们可以发现它们的架构变得越来越深,相应的性能也得到了显著提升。这些方法的成功得益于大规模标注训练数据的支持,例如用于分类任务的ImageNet[2]。所使用的数据规模远大于传统方法,但仍然是有限的。机器学习模型的鲁棒性和泛化性能的追求从未停止。
 最近,基于大规模数据预训练得到的大规模预训练模型的结果不断刷新人们对人工智能的认知。与以往的小规模深度学习方法相比,预训练的大模型在自然语言处理(NLP)、计算机视觉(CV)和多模态领域展现了明显的优势。这种预训练方案充分利用了大规模未标注数据,从而避免了昂贵的标注成本。因此,研究大规模预训练模型是探索真实智能的可行且必要的途径。

2.2 自然语言处理中的预训练

 大规模预训练模型[26, 29, 32, 34, 42, 43, 52]首先出现在自然语言处理(NLP)领域。它们的成功主要归功于自监督学习和像Transformer[9]这样的网络结构,如图3所示。具体而言,基于自监督学习的双向编码器表示(BERT)[10]的出现,导致了在较少训练数据上微调后,广泛下游任务性能的革命性提升[53]。生成预训练变换器(GPT)[12, 54, 55]进一步扩展了参数数量和训练数据,从而获得了更好的性能。需要注意的是,GPT-3[12]的参数数量是TuringNLP[56]的十倍。它不仅能够更好地完成常规NLP任务,还具备一定的数学计算能力。GPT-3模型的成功使其在各种领域得到广泛应用,如搜索引擎、聊天机器人、音乐创作、图形设计和编程等。XLNet[14]是在广义排列语言建模目标的基础上发展起来的,它实现了无监督语言表示学习。PanGu- [57]是一个具有2000亿参数的大规模中文预训练模型,基于MindSpore自动并行实现。NEZHA是另一种基于BERT的中文预训练大模型,由魏等[58]提出。更多NLP领域的大规模预训练模型可以在综述文章中找到[27, 34]。

在这里插入图片描述

2.3 计算机视觉中的预训练

 受到Transformer在NLP任务中革命性进展的启发,近年来也提出了许多基于Transformer的大规模视觉模型。Chen等[59]尝试使用序列Transformer进行自回归地预测像素。该模型通过在低分辨率的ImageNet数据集上进行预训练,展示了强大的图像表示能力。视觉Transformer(ViT)模型[60]直接采用纯Transformer来处理图像块的序列进行分类。在多个下游计算机视觉任务上,ViT取得了许多新的SOTA(最先进的技术)性能,包括物体检测[61]、语义分割[62]、图像处理[63]、视频理解[63]等。Swin-transformer[16]是计算机视觉领域的另一个里程碑,它作为一个分层Transformer,采用了移动窗口进行表示学习。对于预训练方法,提出了掩码图像建模(MIM)[59, 60],通过条件化的可见上下文预测被掩码的部分,从而学习丰富的视觉表示。MIM为探索视觉大规模预训练模型提供了另一种方向。He等[64]提出了掩码自编码器(MAE),重新探讨了在MIM中进行像素回归,并在多个图像识别任务中展示了更具竞争力的表现。BEiT[65]通过掩码视觉标记预测大大提高了MIM的性能,PeCo[66]则发现通过在视觉代码本学习过程中注入感知相似性,可以促进MIM预训练表示的效果。

2.4 音频与语音中的预训练

 作为最受欢迎的模态之一,基于音频和语音的预训练也引起了研究者们的关注。例如,wav2vec[67]是第一个应用对比学习来通过学习基于过去音频的未来原始音频,改进监督语音识别的工作。vq-wav2vec[67]利用wav2vec中的上下文预测任务来学习音频片段的表示。Discrete-BERT[68]是BERT风格的模型,通过对预训练的BERT模型进行语音转录微调。HuBERT[69]采用自监督语音学习,其中使用离线聚类步骤生成掩码语音信号的离散标签。Wav2vec 2.0[70]解决了一个对比任务,通过预测掩码的潜在表示。W2v-BERT[71]同时使用对比学习和掩码语音建模,其中一个模型预测离散化的语音标记,另一个模型解决掩码预测任务。

3 多模态预训练

3.1 任务定义与关键挑战

任务定义 通常,深度神经网络在大规模数据集上进行训练,例如,广泛使用的残差网络[4]是通过在ImageNet数据集[2]上进行分类任务的预训练来实现的。相比之下,多模态预训练大模型通常在庞大的训练数据集上进行训练。这些数据通常没有经过标注,因为数据规模过大,无法进行标注。另一方面,模型的参数需要达到一定的规模。如图4所示,多模态数据、大模型和计算能力是紧密相关的。总的来说,在计算能力的支持下,多模态预训练通常指的是在海量的多模态数据上以无监督的方式预训练的、具有巨大参数的多模态模型。

在这里插入图片描述

关键挑战 根据上述过程,获得一个优秀的多模态预训练大模型是具有挑战性的。具体而言,我们总结了以下几个关键挑战因素:

获取和清理大规模多模态数据 多模态数据是MM-PTM中的关键要素之一。由于多模态成像设备稀缺,多模态数据的收集比单一模态数据更为困难。常用的多模态相机通常只能覆盖两种模态,例如RGB-深度、RGB-热成像、RGB-雷达、RGB-事件摄像机等。目前大多数MM-PTM是视觉-语言模型,因为可以轻松从互联网获取图像和文本数据。然而,由于数据中包含噪声样本,因此这些数据的额外清理也是必要的。

大规模多模态预训练网络架构设计 网络架构是多模态预训练的另一个关键组成部分。用于多种输入模态特征编码的网络需要精心设计,因为不同模态可能有其自身的特征,因此需要特定的网络。例如,图像和文本模态建议使用transformer或CNN,而事件流可以使用脉冲神经网络。另一个问题是多模态融合或跨模态匹配模块的设计。针对小规模多模态任务设计的类似模块是否适用于大规模预训练模型,仍然有待验证。

预训练目标设计 由于大规模的无标签多模态数据,预训练任务通常需要以无监督学习方式进行。许多当前的工作采用为每个模态进行掩码区域预测作为学习目标。显然,多模态任务的目标可以直接借用单模态预训练的目标,然而,为多模态任务设计的预训练目标同样是必要的,且应具有直观性和有效性。广泛使用的对比学习、基于模态匹配和模态转换都是有效且有意义的尝试。如何设计新的多模态预训练目标是MM-PTM面临的最大挑战之一。

大规模计算力支持 传统深度神经网络的训练可以在有限数量的GPU服务器上执行。相比之下,由于大规模多模态数据和超大规模模型参数,MM-PTM需要更多的计算能力。因此,首先需要准备超级计算设备,随后的模型训练也需要大量的计算能力支持。

参数调优技巧 考虑到上述挑战,训练一个有效的大模型从来不是一件简单的事情。训练神经网络时使用的技巧也非常重要。尽管小规模预训练的研究和技术相对更加成熟,但在大规模预训练技术上的经验积累较少。

3.2 MM-PTM的优势

 与单一模态预训练大模型相比,MM-PTM更适合实际应用场景。具体来说,多模态协同生成、模态补全、跨领域检索等问题都可以通过MM-PTM得到有效解决。此外,多模态数据包含更多的信息,可以弥补单一模态的不足。因此,MM-PTM可以帮助提取多模态的共同特征。许多近期的研究表明,利用MM-PTM确实带来了额外的先验知识[72−74]。
 与小规模的多模态模型相比,通过自监督/无监督学习获得的MM-PTM的泛化能力可以显著提高。由于一些先验知识仅存在于大规模数据中,而少量人工选择的标注数据具有偏差,因此,小规模模型难以掌握这些知识。

3.3 预训练数据

如表2所示,许多大规模多模态数据集已被提出用于预训练任务。本小节将简要介绍这些数据集,帮助读者快速掌握预训练所需的数据。

  • SBU Captions[75]:最初通过查询Flickr网站并使用大量查询词收集的数据。然后,过滤掉了获得的大规模但噪声较多的样本,最终得到了一个包含超过100万张高质量图片及其描述的数据集。
  • Flickr30k[76]:通过扩展Hodosh等人[77]的语料库获得,包含从Flickr收集的31,783张照片。这些图像涵盖了日常活动、事件和场景。每张图片通过众包方式标注了五个句子,最终Flickr30k包含158,915个描述。
  • COCO[78]:基于MS-COCO数据集[79]开发,包含123,000张图片。作者招募了亚马逊机械土耳其人来为每张图片标注五个句子。
  • Visual Genome[80]:为帮助开发能够理解图像的机器学习模型而提出,通过挖掘物体之间的互动和关系来进行描述。因此,它在图像描述、视觉问答等认知任务上表现优秀。统计显示,Visual Genome数据集包含超过108K张图像,每张图像约包含35个物体、26个属性和21对关系。
  • VQA v2.0[81]:为减少以前VQA数据集中存在的语言偏差而提出,包含约1.1M个图像-问题样本和1300万个相关答案,基于来自COCO数据集的20万张视觉图像。
  • FashionGen[82]:包含325,536张高分辨率图像(1360×1360),每张图片附有专家撰写的段落长度描述。每个时尚物品拍摄了六个不同的角度。
  • CC3M[83]:2018年提出的概念性描述标注数据集。图像-文本样本主要来自网络,经过提取、过滤和转换等必要操作后,最终留下了大约330万个图像-描述对。
  • GQA[84]:主要用于视觉推理和组合性问题回答。通过精心设计的问题引擎,考虑了内容和结构信息,并采用相关语义表示大大减少了数据集中的偏差,最终获得了一个包含170万个样本的平衡数据集。
  • LAIT[85]:一个从互联网以弱监督方式收集的大规模图像-文本数据集,包含约1000万张图像,每张图像都有一个对应的自然语言描述,描述大约有13个单词。
  • CC12M[86]:由于MM-PTM对大规模数据的急需,CC3M数据集未能满足需求,作者进一步放宽了CC3M在图像和文本清洗中的过滤标准,得到四倍大的CC12M数据集,虽然精度略有损失,但数据集更大。
  • AltText[21]:通过遵循构建概念性描述数据集[83]的规则收集,最终获得了约18亿个图像-文本对。尽管该数据集较为噪声,但通过在该数据集上预训练的大型模型仍然在许多下游任务中超越了许多现有的SOTA工作。
  • TVQA[87]:基于六个长寿命电视节目(包括情景喜剧、医学剧和犯罪剧)构建。然后使用亚马逊机械土耳其人进行视频片段的视觉问答收集。最终,该数据集包含来自21,793个视频片段的约152,545个问答对。
  • HT100M[88]:包含约1.36亿个视频片段,收集自122万部讲解型教学视频。视频内容主要关注人类,共涉及23,000种不同的任务。每个视频片段的语言描述是自动转录的旁白,因此视频和文本的配对较为弱化。
  • WebVid2M[89]:一个视频-文本配对数据集,包含超过200万个视频alt-text对。这些数据集来自于网络,遵循与CC3M数据集相似的收集程序。作者发现,CC3M中的大部分图像是视频缩略图,因此他们抓取这些视频来源(共计250万个文本-视频配对),并创建了WebVid2M数据集。
  • YFCC-100M[90]:包含1亿个媒体对象(9920万张照片,80万段视频),数据来源于2004到2014年间的Flickr。该数据集正在不断更新,且扩展包不定期发布。
  • LAION-400M[91]:包含4亿对图像-文本对,主要用于视觉-语言的预训练。值得注意的是,该数据集使用了CLIP模型进行过滤,这是一个非常流行的预训练视觉-语言模型。
  • RedCaps[92]:一个大型数据集,包含1200万个图像-文本对,数据来源于350个子Reddit社区。作者首先定义了社区范围,然后对图像帖子进行过滤并清理描述,考虑了隐私和有害刻板印象等伦理问题。
  • Wukong[93]:目前互联网上收集的最大数据集,包含1亿对图像-文本对。它基于20万个查询,通过百度图片搜索引擎获取图像及其对应的描述。每个查询最多获取1000个样本,以确保不同查询之间的平衡,且采用了一系列过滤策略。
  • CxC[94]:这是一个基于MS-COCO数据集扩展而来的数据集,通过对现有和新对图像-文本进行连续(0-5)语义相似度评分。CxC包含267,095对图像-文本,是在规模和细节上重要的扩展,可用于图像-文本、文本-文本和图像-图像的检索任务。
  • Product1M[95]:包含118万图像-描述对,涵盖458个类别,92,200个实例。与常规物体检测基准数据集不同,该数据集采用了一种粘贴方式获取实例位置。首先对目标物体进行分割,然后将其粘贴到其他图像中。它可用于多种任务,包括弱监督、多模态和实例级检索。
  • WIT[96]:由Wikipedia爬取并经过严格的过滤操作,最终得到超过3750万对图像-文本对。WIT数据集是多语言的,而其他数据集通常仅包含单一语言(例如英语或中文)。
  • JFT-300M[97]:包含约3亿张图像和3.75亿个标签,每张图像大约有1.26个标签。该数据集有18,291个类别,包括1,165种动物和5,720种车辆等。值得注意的是,这个数据集不能在线获取。
  • JFT-3B[98]:也是一个内部使用的Google数据集,包含约30亿张图像。样本通过半自动化方式进行标注,拥有30,000个标签的类层次结构。由于包含大量噪声样本,这个数据集同样不可在线访问。
  • IG-3.5B-17k[99]:为了弱监督预训练,收集了来自Instagram的图像。与JFT-300M和JFT-3B类似,该数据集仅在Facebook内部可用,无法公开获取。
  • M6-Corpus[100]:专门为预训练视觉-中文大模型M6构建的数据集。该数据集包含6,050万张图像和1118亿个令牌,数据来自各种来源,如产品描述、社区问答和论坛等。
  • M5Product[101]:这是一个专门为电子商务提出的基准数据集,包含600万个多模态样本,涵盖6,000个类别、5,000个属性和五种模态,包括图像、表格、视频、语言描述和音频。与标准的多模态数据集不同,M5Product数据集中的每个样本可能只包含部分模态,并且存在长尾分布问题。
  • Localized Narratives[102]:由Pont-Tuset等人在2020年提出的数据集,提供了一种新的多模态图像注释形式,将图像与相应的语音描述、文本描述和鼠标轨迹相结合,从而提供了语言和视觉之间的密集对接。该数据集包含849K张图像,覆盖了COCO、Flickr30k、ADE20K和Open Images数据集。
  • RUC-CAS-WenLan[103]:通过多源图像-文本数据爬取获得,包含约3000万对图像-文本对。这些样本涵盖体育、娱乐、新闻、艺术、文化等广泛主题,为WenLan项目提供支持,并用于训练BriVL模型。
  • WuDaoMM[104]:一个大规模的多模态数据集,包含超过6.5亿对图像和中文文本样本。该数据集包括超过6亿和5千万弱相关和强相关的图像-文本对,另外还发布了500万强相关的图像-文本对,用于支持中文跨模态预训练任务。
  • MEP-3M[105]:这是一个从多个中国大型电子商务平台收集的大规模图像-文本数据集,包含300万对产品图像-文本对和599个类别。该数据集的一个关键特点是层次分类,涵盖了14个大类、599个子类,和13个子类的进一步子类。
  • WSCD[106](弱语义关联数据集):这是一个多源数据集,包含6.5亿对图像-文本数据样本。所有英文文本都被翻译成中文,用于支持BriVL的预训练。

3.4 预训练目标

如何设计学习目标是多模态预训练中一个非常重要的步骤。目前,提出了多种学习目标,包括对比损失、生成损失等,如图5所示。
在这里插入图片描述

● 对比损失(Contrastive Loss,CS)函数通常构建正负训练样本,广泛应用于双模态。例如,CLIP[73]、ALIGN[21] 都是通过对比学习损失进行训练的。VinVL[108] 的作者采用了三路对比损失来替代Oscar模型[17]中使用的二元对比损失函数。ALIGN中的对比损失定义如下:

L i 2 t = − 1 N ∑ i = 1 N log ⁡ exp ⁡ ( x i T y i / σ ) ∑ j = 1 N exp ⁡ ( x i T y j / σ ) L_{i2t} = - \frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp(x_i^T y_i / \sigma)}{\sum_{j=1}^{N} \exp(x_i^T y_j / \sigma)} Li2t=N1i=1Nlogj=1Nexp(xiTyj/σ)exp(xiTyi/σ)
L t 2 i = − 1 N ∑ i = 1 N log ⁡ exp ⁡ ( y i T x i / σ ) ∑ j = 1 N exp ⁡ ( y i T x j / σ ) L_{t2i} = - \frac{1}{N} \sum_{i=1}^{N} \log \frac{\exp(y_i^T x_i / \sigma)}{\sum_{j=1}^{N} \exp(y_i^T x_j / \sigma)} Lt2i=N1i=1Nlogj=1Nexp(yiTxj/σ)exp(yiTxi/σ)
L C L = L i 2 t + L t 2 i (1) L_{CL} = L_{i2t} + L_{t2i} \tag{1} LCL=Li2t+Lt2i(1)

其中, L i 2 t L_{i2t} Li2t L t 2 i L_{t2i} Lt2i L C L L_{CL} LCL 分别是图像到文本的分类损失、文本到图像的分类损失和总对比损失。 x i x_i xi 表示第 i i i 对的归一化图像嵌入, y i y_i yi 表示第 i i i 对的归一化文本嵌入。 N N N 是批次大小, σ \sigma σ 是温度参数。

● 模态匹配损失(Modality Matching Loss,MML)由于各种模态之间显式或隐式的对齐关系,广泛应用于多模态预训练的大型模型中。例如,Unicoder-VL[109] 利用视觉-语言匹配(Visual-Linguistic Matching,VLM)进行视觉-语言预训练。他们提取正负图像-句子对,并训练模型预测给定的样本对是否对齐(换句话说,预测匹配得分)。与常规的负图像-文本样本不同,InterBERT[110] 的作者通过选择最高的TF-IDF相似度,设计了带有困难负样本的图像-文本匹配(即ITM-hn)。

● 掩码语言模型(Masked Language Modeling,MLM)是另一种广泛使用的预训练目标。通常,研究人员会随机掩盖并使用特殊标记填充输入词。周围的词和对应的图像区域可以作为参考,用于预测被掩盖的词。Wang 等人[111] 训练了 SIMVLM,使用前缀语言建模(PrefixLM),它对前缀序列执行双向注意力,而对其余的词执行自回归因子分解。词用 x x x 表示,图像区域用 v v v 表示。对于MLM,输入的词通过掩码索引 m m m 随机生成,掩盖的概率为 p p p。优化目标是基于所有图像区域和剩余的词 x ¬ m x_{\neg m} x¬m 来预测被掩盖的词 x m x_m xm,通过最小化负对数似然:
L M L M ( θ ) = − E ( x , v ) log ⁡ P θ ( x m ∣ x ¬ m , v ) L_{MLM}(\theta) = -E(x, v) \log P_{\theta}(x_m | x_{\neg m}, v) LMLM(θ)=E(x,v)logPθ(xmx¬m,v)
其中, θ \theta θ 是可训练的参数。除了MLM外,SIMVLM中的PrefixLM也可以用来预训练视觉-语言表示:
L P r e f i x L M ( θ ) = − E x ∼ D log ⁡ P θ ( x ≥ T p ∣ x < T p ) L_{PrefixLM}(\theta) = -E_{x \sim D} \log P_{\theta}(x_{\geq T_p} | x_{< T_p}) LPrefixLM(θ)=ExDlogPθ(xTpx<Tp)
其中, x x x 是给定的文本序列, D D D 是预训练数据集, T p T_p Tp 是前缀序列的长度。
● 掩码片段建模(Masked Segment Modeling,MSM)通过特殊标记掩盖给定文本的连续片段,同时,掩码语言建模(MLM)则是掩盖随机的单词。
● 图像问答(Image Question Answering,QA)在 LXMERT[112] 中被用来进一步扩展预训练数据,因为许多图像-句子对实际上是图像和问题。作者训练他们的模型,作为预训练目标之一来预测答案。
掩码物体分类(Masked Object Classification,MOC) 主要关注通过将视觉图像掩盖为零值来实现。然后,通常通过物体检测器预测标签作为真实标签。这种预训练目标被广泛使用,如 Unicoder-VL[109]。与 MLM 类似,图像区域可以通过以一定概率 p p p 掩盖它们的视觉特征来进行掩盖。目标是预测被掩盖图像区域的物体类别。掩盖图像区域的编码器输出被送入一个全连接(FC)层,预测物体类别的分数,这些分数随后通过 softmax 函数转化为归一化的分布。最终目标是:
L M O C ( θ ) = − E ( w , v ) ∑ i = 1 M C E ( c ( v i m ) , g θ ( v i m ) ) L_{MOC}(\theta) = -E(w, v) \sum_{i=1}^{M} CE(c(v_i^m), g_{\theta}(v_i^m)) L

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值