《EI-CLIP: Entity-aware Interventional Contrastive Learning for E-commerce Cross-modal Retrieval》中文校对

原创

已于 2024-10-16 17:44:05 修改 · 1k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #深度学习 #论文笔记 #transformer

于 2024-10-13 10:37:28 首次发布

系列论文研读目录

文章目录

系列论文研读目录
摘要
1.引言
2.相关工作
3.方法
4.实验
5.限制
6.结论

摘要

电子商务中的跨语言-图像模态检索是产品搜索、推荐和营销服务的基础问题。为了克服一般领域中的跨模态检索问题，人们已经进行了广泛的努力。在电子商务中，一种常见的做法是采用预先训练好的模型，对电子商务数据进行微调。该算法虽然简单，但由于忽略了电子商务多模态数据的独特性，性能并不理想。最近的一些工作[10，72]已经显示了对具有用于处理产品图像的定制设计的通用方法的显著改进。不幸的是，据我们所知，没有一种现有的方法能够解决电子商务语言中的独特挑战。本文研究了一个突出的，其中有大量的特殊意义实体的集合，如，时尚服装业务中的“Dissel（品牌）“、“Top（类别）”、“Releasy（合身）”。通过在因果推理范式中对这种分布外的微调过程进行表述，我们将这些特殊实体的错误语义视为导致检索失败的混杂因素。为了修正这些语义以与电子商务领域的知识相匹配，我们提出了一个基于干预的实体感知对比学习框架，混杂实体选择模块和实体感知学习模块。在电子商务基准测试Fashion-Gen上，我们的方法取得了很好的性能，尤其是在前1位准确率（R@1）方面，我们观察到在图像到文本和文本到图像的检索中，与最接近的基线相比，分别有10.3%和10.5%的相对改进.

1.引言

跨视觉和语言检索作为多模态搜索系统的基本组成部分，已得到广泛研究[13、18、24、27、32、38、41、43、69、70]。它将语言数据作为查询，并检索相应的视觉数据，反之亦然。这一领域的一个关键挑战是如何在语义上对齐视觉和文本数据。
在这里插入图片描述

图1.一般领域和电子商务领域之间的领域转移说明。在电子商务领域中，具有强领域语义的标签实体的集合与标题/描述和图像相关联。

在电子商务产品的跨模态检索中，电子商务图像和电子商务语言都有许多独特的特点。如图1所示，一个电子商务产品图片通常只包含一个简单的场景，有一个或两个前景物体和一个普通的背景。同时，电子商务语言通常由一组元数据（标签实体）[15，39]组成，包括产品名称/描述、品牌、类别、成分等。之前的工作（如FashionBERT [10]和KaleidoBERT [72]）表明，时尚领域的跨模态检索需要更细粒度的特征（如短袖和圆领）。然而，流行的基于感兴趣区域（RoI）[11]的方法检测到具有重复目标区域或与产品无关的子区域的不令人满意的区域提议。为此，这些工作集中在通过基于面片的方法对图像进行细粒度表示学习。尽管取得了巨大的成功，但他们只关注图像的挑战，而语言部分仍然遵循香草BERT [5]。
在这项工作中，我们改进了跨模态产品检索的语言部分。具体来说，我们设计我们的模型的两个动机来自电子商务中独特的语言。动机1：在电子商务中，单词标记经常会产生特殊的含义，而[10，38，72]中的预训练语言模型部分尽管有大规模的预训练语料库，但仍有偏见。例如，在预训练的CLIP模型中，实体“diesel”与概念“fuel”紧密相关，而在电子商务时尚领域中，“diesel”被标记为品牌实体。其他例子包括“canada goose（品牌）“、“golden goose（品牌）”、“top（类别）"等。最近从因果推理的角度研究了多模态微调中的这种分布外问题[67]。Zhang等人将图像和语言之间的这种不受欢迎的虚假相关性表述为从预训练数据集学习的“混杂因素”。通过使用结构因果模型（SCM）图[36]建模，作者通过后门干预[36]进行硬干预以消除数据集偏倚。然而，在对混杂变量建模时，Zhang等人遵循传统的BERT令牌词汇表，将每个实体视为一组（子）单词令牌[10，72]。这忽略了电子商务中大量的特殊含义实体，如“Dissel（品牌）”，“top（类别）”，“fixed（适合）”。此外，这将不可避免地使不同的实体与共享的混淆（子）单词令牌（诸如“Canada Goose”和“Golden Goose”）相互干扰。为此，语言部分应该是实体感知的[31，47，71]，并与预训练语言模型中编码的特殊实体的传统含义相分离。
在这里插入图片描述

图2.在Fashion-Gen上对图像到文本和文本到图像的任务进行了实证分析。报告了前1位准确度的结果。

同时，Meta数据的多样性导致了我们的动机2：Meta数据对跨模态检索的贡献是不均匀的。具体来说，以前的方法通常将所有元数据连接在一起以形成长句[10，24，38，41，43，72]。然而，这种简单的解决方案平等地对待每个Meta信息。在实践中，对于不同的图像/文本对，元数据（标签实体）可能有不同的贡献。有些元数据甚至可能对检索有害。为了支持这一说法，我们使用简单而有效的CLIP模型对Fashion-Gen数据集进行了实证研究[38]。考虑到Fashion-Gen数据集上不同的Meta实体串联，我们对预训练的CLIP模型进行了微调。从图2可以看出，给定产品描述（深蓝色），“品牌”（橙子）是唯一有用的元数据。添加“类别”（黄色）、“季节”（灰色）或“组成”（浅蓝色）对性能的贡献很小，甚至会损害性能。更重要的是，如果我们连接所有的Meta数据（绿色），与在文本到图像和图像到文本任务中仅附加“品牌”相比，这两个性能都下降了。为此，重要的是要确定有益的元数据，同时丢弃其他元数据。
因为动机，我们提出了一个具有因果意识的基于干预的对比学习框架，称为EI-CLIP，用于电子商务产品检索问题，在因果学习范式中有两个特定的模块设计，即，动机-1的认知学习模块（EA-学习者）和动机-2的混淆实体选择模块（CE-选择器）。值得澄清的是，我们没有提出一个新的因果关系的方法，而是制定实体感知的电子商务跨模态检索问题的因果视图。具体来说，EA学习器学习每个信息混杂实体的个体表示，以更好地缓解分布外问题。然后，CE选择器旨在自动选择信息量最大的Meta数据组（例如，“品牌”在图2）从丰富的文本Meta数据。
我们将我们的主要贡献总结如下：·据我们所知，这是一项开创性的工作，旨在应对电子商务特殊实体在语言模态方面带来的挑战.以往的跨模态检索工作主要集中在图像上。·我们是第一个从因果关系的角度来阐述实体感知检索任务的人。我们认为，在一般领域中学习到的电子商务特殊实体的错误语义是导致检索失败的混杂因素。·在因果推理中引入后门调整[36]，我们提出了一个基于实体感知干预的对比学习框架（EI-CLIP），该框架包含两个新的组成部分：CE选择者和EA学习者。· EI-CLIP在电子商务基准数据集Fashion-Gen上实现了具有竞争力的性能。特别是，在前1位准确度（R@1）方面，我们观察到在图像到文本和文本到图像方面，与最接近的基线相比，分别提高了10.3%和10.5%。

2.相关工作

图像-文本匹配视觉语言表征学习有许多下游应用，包括图像标题，视觉问答，跨模态检索（图像-文本匹配）等。我们的工作与图像-文本匹配密切相关，其中的关键问题是如何在语义上对齐图像和文本。早期的工作从利用浅层模型开始，将整个图像和句子投影到潜在子空间中，然后在图像/句子级别对齐两个模态[13，19]。近十年来，深度模型（例如，用于图像的卷积神经网络和用于句子的长短期记忆网络[16]）已被广泛应用于提取更好的表示，然后通过典型相关分析[41，55]，排名损失[9，20]，硬示例挖掘[3，8]等进行图像/句子级别对齐。为了实现细粒度的级别对齐，注意力机制已经被并入以将单词/区域标记与不同的粒度级别（诸如单词级别[18，22，52]、短语/关系级别[24，49]等）对齐。最近，随着基于transformer的预训练的巨大成功[5，48]，已经提出了许多视觉语言预训练方法，例如VL-BERT [43]，ViLBERT [32]，VideoBERT [44]，LXMERT [45]，UnicoderVL [23]，OSCAR [25]等。最近，随着视觉变换器的发展[7，29，33，46，56，62]，拉德福等人。[38]介绍了一个简单而强大的多模态预训练框架（CLIP），该框架基于4亿图像-文本配对训练语料库上的对比学习[4，12，12，14，59 -61]。虽然没有专门设计单词/区域级对齐机制，但它在单词/区域标记级对齐上显示出优于其他方法的上级能力。我们的工作遵循CLIP框架。
基于时尚的跨模态检索 与一般的视觉语言领域相比，基于时尚的任务需要更多地关注任务特定的知识，例如细粒度信息[6，10，64，72]。FashionBERT [10]是时尚领域的第一个视觉语言模型。提出了一种基于块的方法，以保留更多的原始像素级信息。然后，分裂的非重复补丁连同查询词令牌被馈送到跨模态BERT模型进行联合学习。后来，Kaleido-BERT [72]进一步应用了几个不同尺度的自我监督任务，以更加关注图像-文本的连贯性。然而，这些方法都只注重视觉部分，而忽略了电子商务语言的独特性。我们的工作旨在解决来自语言模式的挑战。
多模态学习中的因果关系 因果推理已经在许多视觉和语言应用中成功探索，例如视觉中的图像分类[2，30，58，63]，语义分割[65]，视频动作定位[26，28，57]，以及语言中的文本分类[53]，文本问答[42]，命名实体识别[68]。这项工作的重点是多模态学习，其中一些现有的作品已经触及。Wang等人。[50，51]提出了一种基于视觉常识区域的卷积神经网络（VC R-CNN）来处理图像中对象之间的虚假相关性。尽管去混淆的VC R-CNN在许多多模态应用中显示出令人鼓舞的结果，但因果干预仅被考虑用于视觉领域。Zhang等人。[67]研究了多模态预训练模型在应用于分布外微调任务时的虚假相关性。DeVLBert提出的核心思想是采用硬干预来后门调整[36]给定单词标记（在语言中）的对象标记（在视觉中）的条件概率，或反之亦然。在这项工作中，我们也对一个类似的问题感兴趣，这个问题的动机是将一个预先训练好的通用多模态模型适应于一个分销外的下游电子商务数据集的实际挑战。虽然除了任务的差异，即通用多模态表征学习（DeVLBert）与特定的跨模态检索（我们的），我们的工作旨在减轻特殊实体的偏见语义，而以前的工作集中在对象之间的相关性。

3.方法

3.1.重温CLIP

拉德福等人[38]认为，预先确定的对象类别为计算机视觉网络提供了有限的监督。相反，直接从原始文本描述中学习图像是一种有效的方法，可以利用丰富的监督信息。[38]提出了CLIP（对比图像预训练）模型，该模型应用对比学习在4亿个图像-文本对的数据集上从头开始学习视觉表示。具体地，给定一批图像-文本对 $\{(I_i，T_i)\}^N_{i=1}$ ，其中N是批量大小，图像编码器 $h^I(·)$ 和文本编码器 $h^T(·)$ 首先将图像和文本编码成多模态嵌入空间 $R^d$ 上的向量，其中 $d$ 是嵌入的维度。将图像嵌入和文本嵌入分别表示为 $E_{i}^{I}\ { { {=}}}\ \ h^{I}(I_{i})$ 和 $E_{ {i}}^{T}\:=\:h^{T}(T_{i})$ 。如图3（a）所示，在训练期间，CLIP模型计算余弦相似度 $E_{i}^{T}⊙E_{j}^{I}\;(i,j\;\in\;\{1,2,...,N\}\}$ 的所有 $N \times N$ 可能的对。为了联合训练图像和文本编码器，CLIP最大化 $N$ 个匹配对的相似性，同时最小化所有其他 $N^2−N$ 个不匹配对的相似性。在实践中，CLIP优化了 $N \times N$ 相似性得分矩阵上的对称交叉熵损失。
CLIP算法仅基于图像和文本的全局嵌入来计算相似度。因此，它只学习单词标记和详细图像特征之间的对应关系。为此，需要足够大的数据集来在预训练过程中学习这种细粒度的对应关系。CLIP构建了一个包含互联网上4亿个图像-文本对的数据集。然而，当从一般领域的这个大数据集学习时，模型很容易偏向于“常识”知识边缘（常识可能有偏见。例如，“香蕉是黄色的”是常识，这是没有必要的。相反，香蕉可以是红色或绿色。CLIP中的其他偏倚情况在[1]中进行了讨论。）。通常，偏向公共域是有益的。然而，当它适应其他领域的对比学习，这是具有挑战性的模型学习所有的领域特定的知识，如电子商务领域的知识。例如，单词“柴油”通常指的是常识中的“柴油燃料”。然而，它是时尚领域的服装品牌。另一个例子是“金鹅”品牌。在常识中，我们把它们当作两个独立的词“金色”和“鹅”，并把它们称为颜色和动物。考虑到微调示例的数量有限，模型很难学习到这些特殊词指的是品牌。因此，模型仍然保持其关于这些单词的常识知识。因此，需要一种方法来减轻CLIP中这些唯一词的错误语义。
在这里插入图片描述

图3.在培训期间比较CLIP（a）和我们的EI-CLIP（B）。CLIP（a）直接将所有实体附加到文本描述中，而我们的EI-CLIP则单独对它们进行编码。在此基础上，我们进一步利用CE-Selector自动筛选出重要的混淆实体，并利用EA-Learner将实体信息引入到描述中。更多详情请参见第3.3节。

3.2.因果观中的CLIP

在因果观中，我们把给定的文本 $T_i$ 看作 $X$ ，把图像 $I_i$ 看作 $Y$ 。对于CLIP，对比学习的目标是学习函数 $P (Y ∣ X)$ 与函数 $P (X ∣ Y)$ 的函数。我们使用 $P (Y ∣ X)$ 的计算为例来说明因果观。我们将这些特殊实体的语义视为混杂因素Z，它可能影响 $X$ 或 $Y$ 。具体地，我们定义 $z = g (a, b)$ ，这意味着实体 $a$ 采用语义 $b$ 。实体 $a$ 通常保持几种语义，并且是文本 $X$ 的一部分。例如， $g （ g o l d e n g oose ， “ anima l ” ）$ 的意思是“golden goose”一词指的是动物，而 $g （ g o l d e n g oose ， “ b r an d ” ）$