系列论文研读目录
文章目录
摘要
在电子商务应用中,视觉语言多模态Transformer模型在产品搜索中起着举足轻重的作用。成功训练多模态模型的关键在于数据集中图像-文本对的对齐质量。然而,在实践中,数据通常是自动收集的,人工干预最少。因此,图像文本对的对齐远非理想。在电子商务中,这种不一致可能源于产品描述中嘈杂和冗余的非视觉描述性文本属性。为了解决这个问题,我们引入了多模协议指导的学习令牌修剪(MM-LTP)方法。MM-LTP采用令牌修剪,传统上用于计算效率,在多模态模型训练期间执行在线文本清洗。通过使模型能够识别和丢弃不重要的标记,它能够使用隐式清理的图像-文本对进行训练。我们使用包括超过710,000种独特的亚马逊产品的基准多式联运电子商务数据集来评估MM-LTP。我们的评估取决于视觉搜索,这是一种流行的电子商务功能。通过MM-LTP,我们证明了细化文本标记增强了配对图像分支的训练,从而显著提高了视觉搜索性能。
1.引言
多模态Transformer模型已被广泛用于电子商务产品搜索,包括但不限于标题到图像搜索、图像到图像搜索和多模态到图像搜索[4,26,34,44,45]。多模态模型在电子商务产品搜索中的成功应用可以归因于其在理解产品内容的视觉和语言表示方面的优势。训练有效的视觉语言多模态模型的关键因素之一依赖于数据集中图像-文本对的对齐。在实践中,训练数据集通常是以自动方式收集的,只有有限的手动清理或注释。因此,文本和图像之间的对齐远非理想。
图1.来自电子商务网站的产品图像-文本对示例。产品标题中的短语通过其与图像嵌入的嵌入相似性来进行颜色编码。图像和文本嵌入都由BLIP-2 [20]模型生成。
这种未对齐问题是双向的:可能是配对图像没有反映所有文本内容,或者对应的文本没有完全描述图像内容。在电子商务应用中,前一个问题是常见的[8,23],对开发有效的多模态模型提出了特别严重的挑战。为了宣传他们的商品,卖家倾向于在产品标题中包括与产品属性一样多的属性。但是,其中一些属性是功能性的,而不是可视的。因此,标题中的这些属性短语不能被反映在配对图像中。图1显示了一个产品的图像-文本对示例。产品标题中有20多个短语。但是,大多数都不是直观的描述性图片–您如何判断它是“不含BPA(双酚A)”?通过查看图片来判断吗?我们通过计算短语的嵌入与图像嵌入的余弦相似度来进一步量化短语之间的内部差异,并在图1中示出了结果。很明显,非视觉描述性短语与图像具有显著较低的相似性。另一方面,关于电子商务多模式模型的现有工作主要是以蛮力方式将图像与完整标题对齐[24,26,44]。因此,这些模型易于出现非最佳的图像-文本对齐,并可能过度拟合噪声文本,最终影响模型的泛化性能[18]。为了应对噪声图像-文本对的挑战,一些多模态研究工作提出改进训练数据的规模和模型大小[2,13,30,39]或采用特定的模型设计,例如,BLIP模型[19]和BLIP-2模型[20]中的过滤器模块和捕获器模块。然而,对于电子商务应用程序,可用数据受到产品类别规模的限制,因此其数量无法与开放域数据相比。此外,具有特定设计的模型通常具有复杂的架构,这使得训练和推理不稳定[19]。
在本文中,我们介绍了多模态的文档引导的学习令牌修剪(MM-LTP),一个简单而有效的方法来训练多模态Transformer模型与嘈杂的电子商务图像-文本训练数据。该方法利用令牌修剪技术,该技术通常用于通过丢弃不重要的令牌来提高模型的计算效率[15,31],以在多模态模型训练期间执行在线文本清理。其关键思想是,考虑到每个短语在描述图像时具有不同的重要性,我们可以让模型学习在其原始多模态训练任务的同时删除不重要的标记。因此,可以使用隐式清理的图像-文本对来训练该模型。我们的方法还采用了一个可微的软二值化掩码,这使得模型能够学习关于给定层和任务时哪些标记被修剪的决策。掩模的学习由多模态对准来引导。我们将MM-LTP设计为能够灵活地与具有对准损耗的双模模型(例如,CLIP [30])和具有多模混合网络的多模模型(例如,ALBEF[18]。)此外,该方法可灵活地用于:(1)利用电子商务数据集对在开放域数据集上预训练的模型进行微调,以及(2)在面向电子商务的数据集上以非修剪方式对先前已经微调过的模型进行重新微调。
鉴于公开可用的电子商务数据集的稀缺性,为了评估我们的MM-LTP方法,我们基于单模态Amazon ESCI数据集[32]建立了一个基准多模态电子商务数据集,其中包含在Amazon.com上销售的超过710,000种独特产品。与之前的工作[17]所采用的方法类似,我们的工作还利用了多模态学习的优势,同时专注于视觉编码器进行评估。这是因为在电子商务中,客户主要使用图像作为视觉线索来搜索产品,而不是执行图像到文本或文本到图像的产品搜索[3,35,37,41,43]。通过只保留最突出的文本标记,我们的方法确保了清晰、简洁的语言线索在训练过程中指导图像分支。关注紧密耦合的文本概念可以提高图像模型识别和响应视觉模式的能力。我们的文本修剪利用这种跨模态正则化效应来提高图像编码器的视觉搜索的准确性和效率。通过使用ALBEF [18]类和CLIP [30]类实验的广泛实验,我们证明了所提出的MM-LTP方法的有效性。与没有MM-LTP方法训练的模型相比,MM-LTP可以将模型的Recall@1提高超过5个百分点。我们的主要贡献可以概括为:(1)我们提出了多模态标记引导的学习令牌修剪(MM-LTP)方法,该方法在训练多模态Transformer模型时使用令牌修剪来增强动态文本清理。它解决了电子商务数据集上的不对齐挑战。(2)所提出的多模态软令牌修剪方法可以灵活地与自注意和交叉注意机制集成,并且适用于具有显式或隐式多模态融合的模型。
2.相关工作
视觉语言预训练 在自然语言处理领域大规模基于transformer的预训练的成功[7]推动了视觉语言预训练的研究工作。这些模型在大规模图像-文本对上进行训练,并为各种下游任务学习联合视觉语言嵌入空间。CLIP模型[30]利用来自文本的更广泛的监督源来训练预测模型,该模型将文本与图像对齐,从而产生与特定任务监督模型相当的任务不可知模型。ALIGN [13]使用噪声数据集扩展CLIP模型,无需昂贵的过滤或后处理步骤,覆盖超过10亿个图像替代文本对。CLIP和ALIGN在基于视觉的下游任务中表现出良好的效果,然而,它们忽略了两种模态之间的相互作用和视觉语言下游任务。最近的研究提出在预训练期间学习图像内容和自然语言的联合嵌入,如OSCAR [22],UNIMO [21]和UNITER [6]。这些工作首先使用对象检测器主干来捕获视觉特征,然后将基于transformer的模型应用于级联的视觉和文本特征以学习联合嵌入。ViLT [16]进一步突破了卷积网络的区域特征,采用视觉Transformer [9]将整个全局图像特征与自然语言融合。ALBEF [18]和TCL [38]进一步利用对比损失函数在建模其联合嵌入之前对齐图像和文本特征,增加两种模态之间的交互并实现最先进的性能(SOTA)。
电子商务的多模态模型 FashionBERT [10]和Kaleido-BERT [46]等最初的作品使用了基于transformer的模型沿着自定义掩码策略进行预训练,旨在为服装检索生成更详细的特征。在此之后,CAPTURE [42]引入了一种通过掩蔽多模态学习和跨模态对比预训练生成独特实例特征的方法,这使得实例级产品检索任务的性能令人印象深刻。K3M [45]更进一步,将知识模态纳入多模态预训练中,以减轻图像和文本模态中的噪声并补充缺失的信息。SCALE [8]提出了一个自我协调的对比学习框架,能够将六种不同的模式整合到一个模型中。最近,CommerceMM [40]使用了一种基于对比和MLM的预训练,可以应用于14种不同的任务。
3.方法
简而言之,我们的方法通过每个标记来自注意力得分矩阵的重要性掩码文本标记。MM-LTP的概述如图2所示。
3.1.token重要性量化
文本修剪的第一步是量化每个文本标记相对于图像数据的重要性。我们将重点讨论两种最常见的融合方法的重要性。第一种是带有交叉注意的显式融合,其中标记的重要性直接反映在文本和图像块之间的成对注意分数上。在本文中,我们参考了ALBEF模型中的交叉注意范式[18]。第二种是隐式融合,如CLIP [30]中所述,其使用两个模态的表示之间的对比损失。尽管在这种情况下文本标记并不明确关注图像块,但我们假设分析文本编码器内的自关注模式类似地揭示了细粒度文本依赖性和在视觉内容中扎根的重要性。在交叉注意和自注意中的注意分数矩阵提供了在多模态对准期间如何对各个标记加权的模型不可知的见解,其适用于跨架构。因此,我们建议使用注意力得分矩阵作为量化文本标记重要性的指导。
给定具有 m m m个标记的输入查询序列 x ∈ R m × n \mathbf{x}\in\mathbb{R}^{m\times n} x∈Rm×n,以及具有 k k k个标记的输入键序列 z ∈ R k × l z\in\mathbb{R}^{k\times l} z∈Rk×l,注意力得分矩阵计算为:
其中 W q ∈ R n × d \mathbf{W}_{q}\ \in\ \mathbb{R}^{n}{\times}d Wq ∈ R