《Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce》中文校对版

系列论文研读目录



摘要

本文旨在建立一个通用的多模态基础模型,该模型具有可扩展性,能够满足电子商务中大量下游应用的需求。近年来,大规模的视觉语言预训练方法在一般领域取得了显著的进展。然而,由于自然图像和产品图像之间的显著差异,直接将这些用于建模图像级表示的框架应用于电子商务将不可避免地是次优的。为此,本文给出了一种以实例为中心的多模态预训练范式ECLIP。详细地说,我们制作了一个解码器架构,该架构引入了一组可学习的实例查询来显式地聚合实例级语义。此外,为了使模型能够集中于期望的产品实例而不依赖于昂贵的人工标注,还提出了两个特殊配置的托词任务.ECLIP通过对1亿个电子商务相关数据进行预训练,成功地提取出了更通用、语义丰富和更健壮的表示。大量实验结果表明,在不进行进一步微调的情况下,ECLIP在广泛的下游任务上都远远优于现有方法,具有很强的可移植性.

1.引言

 如今,电子商务的蓬勃发展为人们的日常生活带来了极大的便利.与开发单个特定任务模型相比,构建一个同时适用于大规模电子商务应用的通用基础模型,可以提高适用性,降低培训成本。
 视觉语言预训练(VLP)[9,13,18,21,32,36]的最新发展已经证明了各种VL下游任务的显着进步。得益于大规模的图像-文本对,这些方法能够学习在各种任务中重用的通用多模态表示。在电子商务场景中,相关数据自然包含跨模态信息来描述相应的产品。受VL建模取得的巨大成功的激励,几种方法[4,34,37,39]已经尝试设计一种特定于语言的多模态表征学习范式。它们模仿现有的VLP方法(例如,CLIP [21],VilBERT [18])通过对丰富的商业图像-文本对进行预训练来学习产品的图像级表示。
虽然已经取得了可喜的成果,直接应用这些VLP方法在一般领域的电子商务仍然存在着固有的不足。自然图像和产品图像的属性似乎有很大的不同。给定一个自然图像-文本对,自然图像中的几乎每个像素都被相应的文本描述所提及。相反,如图1所示,在真实的电子商务场景中,图像大多是面向产品的。只有极少数情况与产品描述有关。简单地将整个图像作为一个整体实体来执行与文本的跨模态对齐将不可避免地混淆前景和嘈杂的背景。因此,为了建立一个能很好地推广到各种电子商务应用的基础模型,学习与产品相关的实例级表示具有重要意义。考虑到这一目标,需要解决一个关键的挑战:我们如何使模型在存在背景干扰的情况下专注于产品实例?
在这里插入图片描述

自然图像和产品图像之间的域差异。对于自然图像,大多数像素在语义上与文本句子相关是常见的情况。然而,在电子商务中,这种相关性要稀疏得多(例如,“煎锅”或“咖啡机”仅占据整个图像的一小部分)。此外,通常从多个源(例如(a)广告视频、(B)产品页面、(c)客户评论(参见底部示例))以组的形式提供产品的图像。

 解决这个问题的一个直接方法是求助于对象级的人工注释,但是从互联网上扩展更大的数据是费力且不可行的。在这项工作中,我们致力于从未经策划的数据中推导出基础产品实例的能力。我们的动机是建立在电子商务数据本身的自然特性之上的。如图1所示,产品通常具有来自不同来源的多个图像样本(例如,商家、顾客评论、附加广告视频等)。虽然这些样品的外观可能会因为相机视图或场景的变更而有所不同,但它们都包含相同的产品实体。这一事实强烈地激励我们通过利用这种显式相关性来追求以实例为中心的多模态学习范式。
 建议的预训练框架,被称为ECLIP(E为“电子商务”),采用两个独立的编码器来嵌入产品的图像和文本。我们的主要思想是开发一个解码器架构,建立在上述编码器,其目的是聚合的以示例为中心的产品表示,而无需额外的手工制作的注释。受[1,16,31]的启发,解码器引入了一组可学习的令牌,我们称之为实例查询。在每个解码器块,这些实例查询通过与编码的视觉特征交互来更新。通过多个块的堆栈,他们将逐渐从整个图像中探测潜在的产品实例。此外,每个实例查询都以称为多模态提示的具体文本或图像为条件。这种设计使其专用于由其关联提示符的内容指示的特定实例类型。因此,通过指定多模态提示的内容,解码器可以自适应地发现对应的实例。在预训练期间,对于给定的样本只有一个正提示。其余的是从其他产品中取样的阴性样品。
 为了有效地优化所生成的实例表示,我们新设计了两个借口任务:产品间和产品内多模态学习。第一个负责将相同产品的表示拉得更近,并将不匹配的表示推开。值得注意的是,除了所展示的产品外,正像样品的外观变化很大。在特征空间中使它们的表示比负对更接近将隐含地鼓励实例查询集中在对应于所需产品的视觉区域上。第二个目标是确保只有肯定查询才能聚合前台实例的语义,而不是否定查询。将这两个新颖的托词任务耦合在一起,我们发现整个框架能够学习一个通用的产品表示。我们的核心贡献可概括如下:(1) 我们提出了ECLIP,一个有效的和简单的多模态表示学习范式在电子商务的情况下。超越常规的全局表示,它可以成功地获得实例为中心的产品表示通过解码器架构。(2) 通过充分利用电子商务数据的自然特征和拟议的借口任务,ECLIP获得了细粒度对齐能力,以支持所需的产品实例(参见图4a),而无需依赖任何手动注释。(3) 在大规模产品数据上进行预训练,所产生的基础模型可以无缝地推广到下游电子商务应用程序。全面的实验结果进一步证明了ECLIP的优越性:在没有任何微调的情况下,它在各种现实世界的电子商务任务上实现了对现有最先进方法的实质性改进。
在这里插入图片描述

视觉基础和物体检测的定性示例。更多解释见正文。

2.相关工作

视觉语言表征学习。近年来,视觉语言预训练(VLP)吸引了众多研究人员的注意,并得到了广泛的探索[6],其目的是从大量的图像文本配对数据中学习,以获得可以推广到下游任务的知识。一些先驱作品(例如LXMERT [24],UNITER [2],VinVL [38])依赖于Faster-RCNN [23]等预训练的对象检测模块来提取视觉表示。后来的努力,如ViLT [11]和VLMo [27]统一了视觉和语言转换器,并从头开始训练多模式Transformer。然后,CLIP [21]和ALIGN [9]证明了在嘈杂的图像-文本对上使用对比目标预训练的双编码器模型可以学习强图像和文本表示,用于跨模态对齐任务和zeroshot图像分类。而ALBEF [13]还训练了一个融合编码器来共同学习多模态表示。GLIP [14]统一了对象检测和预训练的短语基础,并超越了检测领域的许多基线。另一系列研究[20,26,28,33]开发了编码器-解码器模型,这些模型使用生成损失进行训练,并在视觉语言基准测试中显示出强大的生成性能,而视觉编码器仍然在图像分类上具有竞争力。但是前面提到的大多数VLP方法都致力于文本和整个图像之间的粗略关联,而忽略了实例级信息,这在电子商务场景中至关重要(如图1所示)。
电子商务的多模式预培训。FashionBERT [7]、Kaleido-BERT [40]等早期作品利用基于transformer的模型和定制的掩蔽策略来执行预训练,以生成用于布料检索的更细粒度的特征。然后CAPTURE [37]通过掩码多模态学习以及跨模态对比预训练生成区分性实例特征,在实例级产品检索任务中实现了令人惊讶的性能。K3 M [39]进一步在多模态预训练中引入知识模态,以纠正噪声并补充图像和文本模态的缺失。SCALE [4]提出了一个自我协调的对比学习框架,可以将六种不同的模式整合到一个统一的模型中。最近CommerceMM在[34]中设计了一个基于对比和MLM的预训练范式,用于14个不同的任务。然而,所有现有的方法都只考虑图像和文本之间的全局对齐,而没有探索电子商务数据中包含的特殊特征来学习以实例为中心的表示。

3.方法

 在本节中,我们开始概述我们在3.1节中提出的ECLIP。然后,在3.2节中介绍了旨在聚合所需产品的实例级表示的核心解码器架构。为了优化整个框架,我们在3.3节中仔细设计了几个预训练目标。最后,我们描述了如何将生成的基础模型转移到3.4节中的各种下游任务。

3.1.模型概述

如图2所示,ECLIP由图像编码器、文本编码器和实例解码器组成。给定输入样本 x = ( x I , x T ) x =(x^I,x^T) x=xIxT),其中 x I x^I xI x T x^T xT分别是描述相应产品信息的图像和文本。这两个编码器首先将图像-文本对编码为特征嵌入序列。然后,一个模态相关的投影层被用来线性映射到一个联合多模态特征空间。这些投影嵌入被进一步解码以产生以实例为中心的表示。两个单峰编码器的细节阐述如下。
在这里插入图片描述

(a)提出的实例级表示学习范例(ECLIP)的体系结构,它由一个图像编码器,一个文本编码器,和一个实例解码器。在大规模电
子商务数据集上进行预训练时,通过三个预训练任务对整个框架进行了优化。(b)核心解码器架构,旨在聚合所需产品的实例表示。

图像编码器。根据视觉变换[5],将产品图像 x I   ∈   R H × W × C {\boldsymbol{x}}^{I}\,\in\,{\boldsymbol{R}}^{H\times{W}\times{\boldsymbol{C}}} xIRH×W×C划分为N个不重叠的块。这些面片被展平为 1 D 1D 1D输入令牌,然后线性投影,添加位置嵌入。通过分层特征编码,我们可以得到视觉嵌入的序列 { v c l s , v 1 , … , v N } \left\{v_{c l s},v_{1},\ldots,v_{N}\right\} { vcls,v1,,vN},其中 v c l s v_{cls} vcls表示对整个图像信息进行编码的特殊标记 [ C L S ] [CLS] [CLS]
文本编码器。该编码器采用模拟transformer式结构。对于输入的产品描述 x T x_T xT,它将文本标记化为 M M M个子词,如BERT[3]中所示。与图像编码器类似,一个特殊的 [ C L S ] [CLS] [CLS]标记被附加到文本输入的开头,以总结文本语义。在编码之后,得到的语言嵌入序列被表示为 { w c l s , w 1 , … , w M } \left\{w_{c l s},w_{1},\ldots,w_{M}\right\} { wcls,w1,,wM}

3.2.提取以实例为中心的表示法

现有的VLP方法在获得上下文嵌入后,利用 g I ( v c l s ) ∈ R D g_I(v_{cls})∈ R^D gIvclsRD g T ( w c l s ) ∈ R D g_T(w_{cls})∈ R^D gTwclsRD通过对比学习来对齐正的图像-文本对。这里, g I ( ⋅ ) g_I(·) gI g T ( ⋅ ) g_T(·) gT是前面提到的投影。虽然在一般领域中有效,但是该设计仅考虑全局图像文本语义之间的对齐。然而,在电子商务图像中,只有包含所需产品实例的几个区域是对应于文本描述的信息性前景。对这种图像级对齐建模将无法学习强有力的产品语义。因此,我们致力于学习以实例为中心的表示法。

实例查询。执行严修查询在[1,16]的启发下,引入了一组可学习的标记,称为实例查询,以在产品图像中建立潜在的实例。如图2所示,每个查询都与一个特定的文本或图像相关联,我们称之为多模态提示。这种设计背后的深刻之处在于,我们希望查询应探查的实例由提示内容指定。形式上,所提出的实例查询被表示为 Q   =   { q t   ∈   R D } t = 1 T {\cal Q}\,=\,\{q_{t}\,\in\,{\cal R}^{D}\}_{t=1}^{T} Q={ qtRD}t=1T,其可以通过下式获得: q t = q t p r o m p t + q t p o s + q t t y p e ( 1 ) q_t = q_t^{prompt} + q_t^{pos} + q_t^{type} \qquad (1) qt=qtprompt+qtpos+qttype(1)(这里, q t p r o m p t q_t^{prompt} qtprompt表示 g I ( v c l s ) g_I(v_{cls}) gI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值