系列论文研读目录
文章目录
摘要
尽管多模态预训练具有从互补数据模态中学习高度区分性特征表示的潜力,但由于缺乏大规模模态多样性数据集,目前的进展正在放缓。通过利用电子商务的自然适用性,其中不同的模态捕获互补的语义信息,我们贡献了一个大规模的多模态预训练数据集M5 Product。该数据集包括5种模态(图像、文本、表格、视频和音频),覆盖6,000多个类别和5,000个属性,比具有类似模态数量的最大公开数据集大500倍。此外,M5 Product包含不完整的模态对和噪声,同时也具有长尾分布,类似于大多数现实问题。我们进一步提出了自协调的自适应学习(Self-harmonized ContrAstive LEarning,SCALE),一种新的预训练框架,通过自适应特征融合机制将不同的模态集成到一个统一的模型中,其中每个模态的重要性直接从模态嵌入中学习,并影响多模态Transformer模型中的模态间对比学习和掩蔽任务。我们评估了当前的多模态预训练最先进的方法,并基准测试了它们在面对M5 Product数据集中的大量模态时从未标记数据中学习的能力。我们对四个下游任务进行了广泛的实验,并证明了我们的SCALE模型的优越性,为数据集规模和多样性的重要性提供了见解。数据集和代码可在https://xiaodongsuper.github.io/M5Product_dataset/
图1.我们的M5Product数据集包含了大量的形态(图像,文本,表格,视频和音频),描述了电子商务产品的类别,描述,材料,属性和目的,以及各种真实世界的数据样本。
1.引言
自监督学习一直在推动计算机视觉和自然语言处理等领域的快速发展,以及多模态表征学习的研究。特别是,从理论[18]和实践[16,58]的角度都表明,具有不同模态的大规模数据集可以有效地增强对生成特征的区分,从而提高视觉语言任务的性能。然而,目前的进展受到缺乏这种大规模多样化模态数据集的严重限制,最大的公共多模态数据集只包含文本、图像模态和无类别信息[41]。
鉴于网络购物在日常生活中的普遍性,以及其自然出现的多模态信息和多样化的类别,电子商务产品的多模态预训练受到越来越多的关注,并引领了几个下游任务的下一代技术的发展(例如,多模态检索、多模态分类和聚类)。然而,即使在现有的产品数据集中(例如,RPC checkout [48]、Dress Retrieval [9]和Product1M [55]),但类别的数量不足以可靠地验证下游任务的性能。
更重要的是,目前的研究界大多集中在两个模态(文本和图像)在一般的多模态和电子商务数据集,而忽略了额外的补充信息的重要性,从结构化数据以及视频和音频模态。例如,表格数据可以提供有关属性和特征的详细信息,例如品牌,材料,属性和场景,而音频和视频可以传达不同的观点,尺度,启示,卖点,特征和使用场景,这些都不是单独从图像或文本中显而易见的。对这两种模式的关注部分是由于缺乏具有不同模式的数据集,以及对在这些环境中平衡模式重要性的方法的探索不足。具体而言,两个关键挑战是:1)模态交互:如何使用扩展到大量模态的优雅方法从不同模态之间的单峰,双峰,三峰甚至多模态关系中学习共同表示; 2)模态噪声:如何在训练过程中减少模态噪声(缺失和不完整的模态)的影响。
为了解决模态多样性不足和规模有限的问题,同时提供具有挑战性的现实场景,我们提出了一个非常大规模的电子商务多模态产品数据集M5Product,这是迄今为止最大和最多样化的多模态产品数据集之一。我们的M5Product数据集包含来自6232个类别的600多万个多模态样本,并且具有比现有数据集更复杂和多样化的模态。这使得M5Product可以用于更全面地评估多模态预训练模型的实际应用和泛化能力,并可以提高模态融合性能,促进多模态研究的新方向。图1显示了我们数据集的五种形式(图像、标题、视频、音频和规范(表格))。
为了进一步解决现有方法的模态融合限制以及处理模态噪声,我们提出了一个通用框架,该框架将五模态数据作为输入,如图2所示。该框架由一个简单有效的多模态五流预训练模型组成,名为自协调主动学习(SCALE),并在几个下游任务上进行评估,并与最近几个最先进的视觉语言模型进行比较[7,27,30,38,42,45,56]。SCALE通过实施自协调策略来提高模态对齐的有效性,该策略适应对比学习模块和掩蔽任务中不同模态之间的对齐权重,以自适应地整合互补模态信息。概括而言,我们的贡献如下:
- 我们提供最大的五模态电子商务数据集M5Product。通过其大规模,多样性,复杂的真实的场景和模态的数量,M5Product为评估多模态预训练模型的泛化性能提供了一个全面的环境。
- 我们的自我协调对比学习(Self-harmonized Contrastive Learning,SCALE)框架学习自适应模态交互,从而实现更有效的模态融合。我们将SCALE与一组全面的基线方法进行比较,并在M5Product数据集上展示了其上级性能。
- 有趣的观察:1)在大规模和复杂的场景中,不同模态的互补增益增加。学习模态对齐权重允许我们的SCALE框架有效地协调互补信息,以实现更好的性能。2)对于电子商务领域的多模态预训练模型,数据集规模和多样性对于下游任务相对重要。考虑到大规模和多样化的产品,我们的SCALE框架比其他基线更好地推广到下游任务。
2.相关工作
多模态预训练数据集。大多数多模态预训练数据集是从社交网站收集的(例如,Twitter和Facebook),并且仅限于为指定任务收集的两种模式。这些数据集可以根据其模态组成分为四类,即,音频/文本、视频/文本、图像/文本等。其中,LJ Speech [19]和SQuAD [25]是经典的音频/文本数据集,用于语音合成和音频问答,而大多数视频/文本数据集[2,20,24,32,46,47,51,57]用于视频问答。然而,这些数据集通常只包含有限数量的样本,限制了它们对多模态预训练的适用性。另一方面,图像/文本数据集[1,4,8,17,22,23,29,34,41,43,48,53]往往更大,并已广泛用于预训练多模态模型。其中,拥有超过300万个图像-文本对的CC 3 M [41]是使用最广泛的预训练数据集,最近已扩展到CC 12 M [5],这是目前最大的文本-图像交叉模态数据集。除此之外,用于多模态检索任务的常用图像/文本数据集是MS COCO [29],Flickr 30 K [53],INRIA-Websearch [22]和NUS-WIDE [8]。其他数据集包括CMU-MOSEI [54]和XMedia [36],其中CMUMOSEI主要关注情感分析,XMedia用于跨模态检索。
表1. 与其他广泛使用的多模态数据集的比较。“-”表示未提及。与现有数据集相比,我们的M5 Product是最大的多模态数据集之一。六种模态分别表示为:图像(I)、文本(T)、视频(V)、音频(A)、表格(Tab)和3D图像(3D)。
除了上述数据集,还有几个电子商务数据集。Dress Retrieval [9],RPC checkout [48]和Product1M [55]是典型的电子商务多模态数据集。Dress Retrieval数据集包含来自50个服装类别的20,200个样本,RPC checkout提供了30,000个简单背景下的小型零售商品样本,Product1M提供了来自458个化妆品类别的118万个样本。与这三个数据集相比,我们的M5Product不仅在类别和数据规模方面更大,而且包含更多样化的模态集。与其他多模态预训练数据集的详细比较见表1。
电子商务产品的多模式预训练。近年来,针对视觉-文本多模态学习,研究者们提出了多种视觉语言预训练模型。它们可以粗略地分为两类:1)单流模型,其Transformer层共同对视觉和文本输入的级联进行操作,例如VL-bert [42],Image-BERT [37],VideoBERT [44],MMT [12],HERO [26],VisualBERT [27]和UNITER [7]。2)图像和文本输入不连接的双流模型,例如ViLBERT [30],LXMERT [45],CLIP [38]和DALL-E [39]。
在电子商务中,基于时尚的任务已经在FashionBERT [13],MAAF [11],Kaleido-BERT [59],M6 [28]和CAPTURE [55]中得到了解决。现有的电子商务场景研究都只关注图像和文本模态,没有一种方法可以利用更多的模态。此外,在建模多模态交互时,所有现有方法都默认将相同的贡献分配给不同的模态。更具体地,基于transformer的方法通过级联来组合从不同输入中提取的transformer高级特征,其单模态transformer通过掩蔽任务约束或通过构建不同模态之间的模态间损失来训练。这限制了模型有效地对模态进行优先级排序,并且随着模态数量的增加,往往会限制性能的提高。
我们提出的基准通过利用M5Product数据集的所有不同模式填补了这一空白,并为电子商务及其他领域的多模式预训练研究提供了强有力的基线。
表2. 电子产品不同形态的特点。
3.M5Product数据集
数据收集。该数据集是从一个流行的电子商务网站上爬取的.并对每个电子商务产品的首页进行分析,以收集由产品图像、标题、视频和说明书(表格信息)组成的多模态信息。重复的数据被删除,音频信息通过moviepy工具从视频中提取出来,并保存为mp3格式。对于产品规格,我们提取了5,679个产品属性和24,398,673个值,以构建一个由电子商务商家粗标注的表数据库。经过处理后,数据集包含6,313,067个样本。请注意,作为一个真实世界的数据集,与传统的多模态数据集不同,我们的M5Product不是一个完整的配对数据集,并且包含的样本只有一个模态子集以及长尾分布(图3)。我们在表2中总结了我们的数据集中不同模态所传达的产品特征,其中APP、USA、SPEC、SELL、PROD、MATE和CATE分别表示外观、用途、规格、卖点、生产、材料和类别描述。
定量分析 1)多样性:该数据集包括6,000多个类,涵盖了服装、化妆品和仪器仪表等各种海量的电子商务产品。图1说明了模式和类别的多样性,我们在补充材料E节中进一步说明了数据格式和收集过程。最后,在第F节中可以找到对范畴和情态分布的定量分析。请注意,大约5%的产品是单峰样本,例如,仅包含图像、标题或表格属性。2)质量:我们在表1中进一步提供了我们的M5 Product数据集与一些广泛使用的多模态预训练数据集之间的比较。与其他多模态数据集的更广泛比较可参见补充材料的第H节。与现有的多模态数据集相比,M5 Product是第一个包含两种以上模态数据的超大型公共真实世界电子商务产品数据集。
此外,我们的数据集包含大量的实例,即,来自6,232个粗分类的超过600万个样本。这些丰富的数据将有利于一些下游任务,如自学习,弱监督学习,多模式检索,跨模式生成和细粒度识别。
其他分析。在补充材料中,我们在B部分提供了数据集收集的详细信息,在D部分详细说明了如何将数据集分为训练和测试,在C部分详细说明了如何获得注释。我们还提供了一个较小的拆分,称为子集,用于显示较小数据集的性能差异。最后,我们在补充章节F中提供了对数据集组成(缺失模态、单峰数据分析和数据格式)的进一步见解。
图2. M5Product性能指标评测的示例。它由一个五模态电子商务数据集组成,这些数据集来自真实世界的在线购物网站,具有更加多样和复杂的背景。提出了一个SCALE模型,用于捕获4个常见的下游任务的最大模态互补信息:1)多模态检索,2)细粒度检索,3)多模态分类,4)多模态聚类。该基准验证了五种广泛使用的模态中模态多样性的有效性。
图3. 在整个类别中的定型数据分布。
4.我们的方法
如图2所示,我们的SCALE框架由一个自协调对比学习模块和一个自监督多模态Transformer组成。在本节中,我们首先在4.1节中提供SCALE的架构设计,然后在4.2节中描述支持SCALE自监督学习的五个掩蔽任务。最后,我们在第4.3节中介绍了SCALE的详细学习过程,并详细介绍了如何实现多模态对齐。
4.1.SCALE框架设计
如图2所示,SCALE是典型的单流Transformer架构。在底部,图像/文本/表格/视频/音频嵌入层和转换器旨在提取模态特征并生成令牌特征。具体地,文本和表格编码器是分别对产品的标题和表格信息进行编码的标准转换器。相反,图像编码器将由自下而上注意力[3]提取的建议作为输入,而从视频中采样的顺序帧被馈送到视频编码器中。对于音频编码器,SCALE从音频中提取MFCC [33]特征。在由单独的模态编码器处理之后,不同模态的令牌特征被连接并馈送到联合共变换器(Joint Co-Transformer,JCT)模块中以捕获不同模态之间的令牌关系。
缺少模态。在训练SCALE时,利用缺失模态的零插补来利用所有可用数据。我们提供了实验证据,证明SCALE受益于补充材料第一节中的不完整样本。
4.2.借助掩蔽多模态任务的SCALE
与以前的工作类似,我们利用几个借口任务(PRE)来促进联合Co-Transformer模块中SCALE的自监督学习。对于从图像和文本模态中进行模态特征学习,我们在JCT之后分别采用了掩蔽区域预测任务(MRP)和掩蔽语言建模任务(MLM)。利用表,视频和音频模态的特性,我们进一步提出了一个掩码实体建模任务(MEM),掩码帧预测任务(MFP),和掩码音频建模任务(MAM)以下类似的预测掩码令牌的策略。在所有掩蔽任务中,真实的标签是掩蔽区域的特征。对于所有掩蔽任务,15%的输入被掩蔽,剩余的输入用于重建掩蔽的信息。请注意,与MLM任务中15%的单个单词被屏蔽不同,15%的实体(属性,品牌名称等)在MEM任务中被完全掩盖了这促使我们的模型学习更好的表示,以恢复屏蔽的输入,如5.3节所示。第 i i i模态的损失函数定义为:
L M i ( θ ) = − E t m s k ∼ t l o g P θ ( t m s k ∣ t ¬ m s k , M ¬ i ) , ( 1 ) \mathcal{L}_{M_{i}}(\theta)=-E_{t_{m s k}\sim\mathrm{t~}}logP_{\theta}\left(t_{m s k}\mid t_{\neg m s k},\mathbf{M}_{\neg i}\right),\quad(1) LMi(θ)=−Etmsk∼t logPθ(tmsk∣t¬msk,M¬i),(1)
其中, t ¬ m s k t_{\neg m s k} t¬msk表示围绕屏蔽令牌 t m s k t_{msk} t