《FashionViL: Fashion-Focused Vision-and-Language Representation Learning》中文校对版-优快云博客

本文链接：https://blog.youkuaiyun.com/buyaotutou/article/details/143267312

文章汉化系列目录

文章目录

文章汉化系列目录
摘要
1 引言
2 相关工作
3 方法论
- 3.1 模型概述
- 3.2 预训练任务
4 实验*
5 结论

摘要

大规模视觉-语言（V+L）表示学习的预训练已被证明在提升各种下游V+L任务上非常有效。然而，在时尚领域，现有的V+L方法存在不足，因为它们忽略了时尚V+L数据和下游任务的独特特性。在本研究中，我们提出了一个专注于时尚的V+L表示学习框架，称为FashionViL。该框架包含两个专为时尚V+L数据设计的新颖预训练任务，以充分利用时尚数据的两个内在属性。首先，与其他领域的V+L数据点仅包含单一图文对相比，时尚领域可能包含多张图片。因此，我们提出了一项多视图对比学习任务，将一张图片的视觉表示与另一图文组合的多模态表示拉近。其次，时尚文本（如产品描述）通常包含丰富的细粒度概念（属性/名词短语）。为了利用这一点，引入了伪属性分类任务，以鼓励学习到的同一概念的单模态（视觉/文本）表示更接近。此外，时尚V+L任务独特地包括一些不符合常见单流或双流架构的任务（如文本引导的图像检索）。因此，我们提出了一个灵活多样的V+L模型架构，包含一个模态无关的Transformer，以便它可以灵活适应任何下游任务。大量实验表明，我们的FashionViL在五项下游任务中达到了最新的性能水平。代码可在https://github.com/BrandonHanx/mmf获取。

1 引言

近年来，视觉-语言（V+L）预训练受到越来越多的关注【34,57,43,55,8,37,50,31,33,66】。其目标是通过大规模图文对来学习多模态表示，以改进各种下游的单模态或多模态任务。这些模型被证明非常有效，主要得益于两个因素：（i）网络上有大量的图文对，提供了丰富的免费训练数据（无需额外标注），（ii）基于Transformer的模型架构被广泛用于学习多模态输入的上下文表示。
在本研究中，我们聚焦于时尚领域，对于该领域，V+L预训练似乎特别适用。首先，时尚V+L数据不仅数量丰富，而且质量很高。在线时尚购物日益普及；在电子商务网站上，每个产品详情页（PDP）都包含高质量的产品图片和文本（通常由领域专家生成）。其次，时尚领域的下游任务比其他领域更多样化，在实际应用中涵盖了从多模态产品理解【38,44】、跨模态检索【18】到文本引导的图像检索【67】的各类任务。然而，当这些方法应用于时尚领域时，我们发现现有的最先进V+L预训练方法【18,79】的效果不如其他领域（参见第4节）。我们认为，这可能是因为它们并未设计用于充分利用时尚V+L数据和下游任务的一些独特特性。
具体而言，在大多数现有的通用领域V+L数据集（例如，COCO【39】和Flickr30k【48】）中，每个数据点通常是单一的图文对，且文本通常较简短（例如图1中的图像标题）。相比之下，时尚数据集主要收集自电子商务网站的产品详情页（PDP），因此具有两个特殊性：（i）通常一个文本关联不止一张图片。图1中的示例展示了‘maxi连衣裙’的三个不同视角，使在线购物者能够从不同角度查看该连衣裙。（ii）文本描述中包含了更多细粒度的概念，因为文本本身就是产品描述。如图1所示，时尚文本更专注于服装本身，使用非常详细的形容词和名词，描述其标题、风格和外观。为验证这一点的统计真实性，我们计算了四个合并的时尚数据集【52,23,70,60】和两个合并的通用数据集【48,39】中的词汇比例。我们发现，时尚描述中的单词有82%为形容词或名词，而在通用描述中这一比例仅为59%。现有的V+L模型均无法利用时尚数据的这些特性。
在这里插入图片描述

图1. 左侧和右侧分别是来自时尚数据集FACAD【70】和Flickr30k【48】的示例。可以看出，时尚数据通常包含来自不同角度的多张图片，并附有结构化的标题和包含多个细粒度属性的描述（用颜色突出显示）。

时尚领域的下游任务比通用领域更加多样化，这对V+L预训练模型架构设计提出了挑战。具体来说，在通用V+L领域，现有模型通常分为单流或双流架构，取决于预期的下游任务。例如，单流模型【34,55,8,31,28】在图像和文本标记的连接上操作，适合多模态融合任务，如VQA【2】、VCR【73】和RefCOCO【72】。相反，双流模型【43,57,29,50,56】通常专为高效的跨模态检索任务设计（单流模型也可以应用，但它需要遍历每对查询和图库项，导致在大规模应用中检索速度不可接受。）。然而，在时尚领域，除了图文融合和跨模态检索下游任务外，还存在一些任务，单流或双流架构均不适用。例如，文本引导的图像检索任务【62,67,21】不仅需要高质量的参考图像和修改文本的融合，还需要在融合的多模态表示和候选图像之间实现高效匹配。由于时尚下游任务的多样性，现有的单流或双流模型都缺乏所需的灵活性和多功能性。
为了克服现有模型在时尚领域的局限性，我们引入了一个新颖的时尚专用V+L表示学习框架，称为FashionViL。提出了两个专为时尚数据设计的预训练任务，以充分利用时尚数据的特性。第一个任务是多视图对比学习（Multi-View Contrastive Learning，MVC）。给定一个具有多张图像/视角和一个文本描述的时尚数据项，我们假设每种模态（无论是单模态还是多模态）在语义上应该彼此相似，因为它们都指向同一个产品。因此，除了常见的图文匹配外，我们还建议最小化以下两者之间的距离：（a）其视角之一和文本的多模态表示，和（b）其他视角。第二个任务是伪属性分类（Pseudo-Attributes Classification，PAC），旨在利用描述中的丰富细粒度时尚概念。具体而言，我们从时尚数据集中提取常见属性/名词短语，并构建一个伪属性集。模型在预训练期间学习明确预测这些属性。PAC鼓励具有相同属性的时尚项聚集在一起，从而使学习到的表示更加具备区分性。我们表明（见第4.3节），这些新的预训练任务对图文对比学习（ITC）和掩码语言建模（MLM）等常规预训练任务是有效且互补的。
此外，我们设计了一个灵活且多功能的模型架构，使预训练模型能够轻松适应多种下游任务。该新设计保持了单流模型的优越融合能力和双流模型的可扩展性。尤其是，它还适应了时尚领域的特定任务，如文本引导的图像检索和服装搭配推荐。具体而言，我们的模型由一个图像编码器和一个模态无关的Transformer模块组成，该模块既可以用作文本编码器，也可以用作多模态融合编码器。因此，它可以轻松地微调以适应三种不同的下游应用场景：（i）早期融合的单流模式，用于联合表示学习，例如多模态分类；（ii）晚期融合的双流模式，用于单模态表示学习，例如跨模态检索；（iii）早期融合的双流架构，用于组合表示学习，例如文本引导的图像检索。
总之，我们的贡献如下：（1）提出了一个专为时尚领域设计的新颖V+L预训练框架，可通过两个新的V+L预训练任务利用时尚数据的特性。（2）引入了灵活的架构设计，具有共享的文本编码器和融合编码器，可轻松适应多种时尚下游任务。（3）为了展示FashionViL的泛化能力，我们在五项时尚V+L任务上评估了我们的模型：图像到文本的检索、文本到图像的检索【52】、文本引导的图像检索【67】、（子）类别识别【52】和服装搭配推荐【60】。实验结果表明，FashionViL在所有下游任务中均达到了新的最先进水平（SOTA），并在性能上实现了稳定且显著的提升。据我们所知，这是首个能够同时解决五种不同时尚任务的工作。

2 相关工作

随着Transformer的出现【61】及其在自然语言处理（NLP）【10】和计算机视觉（CV）【13】领域的成功，大规模的V+L预训练在通用领域取得了巨大的成功【34,8,33,50】。最近一些研究开始聚焦于包括时尚在内的电子商务领域【18,79,78,11,76】。现有研究主要在两个方面有所不同：架构设计和预训练任务。
模型架构。所有V+L预训练方法都使用图像和文本的嵌入序列作为输入，通过CNN或Transformer架构建模跨模态（以及可选的模态内）交互，并输出上下文化的特征序列【6】。在架构设计上有许多选择，包括单流早期融合【34,55,8,37】与双流晚期融合【57,43,29,50,17】，或不同的视觉特征（例如，基于检测的区域【75】、ConvNet补丁【28】、线性投影【31,69】）。在许多情况下，设计由预期的下游任务驱动（例如，VQA需要早期融合以增强联合表示，而跨模态检索则需要晚期融合以加快推理速度）。也有一些研究致力于通过检索和重排序策略【56,19】或知识蒸馏【65,41】来缩小不同架构之间的差距。与此不同的是，受最新模态无关模型进展的启发【1,71,64,63,35】，我们引入了一个可以轻松在单流和双流模式之间切换的统一架构，因此无需为不同的下游任务修改架构。
预训练任务。已有多种任务被提出用于V+L预训练。掩码语言模型（MLM）和图文匹配（ITM）是BERT目标的直接对应【10,34】。掩码图像建模（MIM）是MLM在视觉模态上的扩展，包括掩码区域分类【43,55】和掩码区域特征回归【8】等多种变体。其他一些任务也被证明有效，如预测对象标签【37,27】、顺序标题生成【77,66】以及图文对比学习【33,50,36】。然而，这些任务均无法利用时尚数据的两个特殊性。为此，我们在本研究中提出了两个专为时尚领域设计的预训练任务。

3 方法论

3.1 模型概述

FashionViL的模型架构如图2(a)所示，由图像编码器（IE）和一个可用作文本编码器（TE）和融合编码器（FE）的Transformer模块组成。具体来说，我们的图像编码器使用ConvNet作为骨干网络，将原始像素通过网格化处理最终特征图的网格特征，转换为一系列视觉嵌入。对于文本编码器，我们遵循BERT【10】的做法，将输入句子分词为WordPieces【68】。每个子词标记的嵌入通过其词嵌入和可学习的位置嵌入相加得到，并进行层归一化（LN）【3】。
在这里插入图片描述

图2. 所提出的FashionViL模型架构概述，包括图像编码器、文本编码器和融合编码器。文本编码器和融合编码器共享相同的参数。我们采用六个预训练任务来学习不同的表示。

模型设计的一大创新在于TE（文本编码器）和FE（融合编码器）共享同一个Transformer模块，这使我们能够灵活地构建多种多模态模型架构，适用于不同类型的下游任务。例如，图2(b)展示了一种早期融合模型架构，其中原始句子和计算得到的图像嵌入共同输入到多模态融合编码器中。需要注意的是，当我们将Transformer用作融合编码器时，还会将模态嵌入添加到视觉嵌入和词嵌入中，以帮助模型区分模态类型。该架构与许多先前预训练工作中的单流模型完全相同【34,8,18】。接着在图2©中，我们展示了一种晚期融合的双流模型架构，其中共享的Transformer用作文本编码器。图像编码器和文本编码器的输出通过简单的点积进行交互，以计算两个模态之间的相似性。该架构已被广泛用于高效的大规模跨模态检索【56,19】。此外，我们还可以将共享的Transformer微调为更复杂的双流架构变体，如图2(d)所示。在这里，一条流采用早期融合方式，另一条流作为图像编码器。这一架构适用于一些以多模态查询为主的时尚领域检索任务，例如文本引导的图像检索【62,67】。需要注意的是，在上述三种架构中，FE和TE实际上都是相同的Transformer，唯一的区别在于其输入内容。
给定一个图文对，我们将其原始视觉输入表示为 $v_i = \{v_1^i, \dots, v_K^i\}$ ，将其输入的单词表示为 $w_i = \{w_{\text{cls}}^i, w_1^i, \dots, w_T^i\}$ ，其中下标 $i$ 表示数据集中的第 $i$ 个对。在文本序列的开头插入一个特殊的 $[\text{CLS}]$ 标记，当模态连接时也会在多模态序列中插入该标记。在将模型应用于下游任务时，我们遵循常见的预训练 + 微调流程。

3.2 预训练任务

我们首先介绍两个新的预训练任务，随后是我们框架中采用的其他常规预训练任务。

多视图对比学习（MVC）。如图1所示，每个时尚项目通常关联多个视角，以提供对产品的全面概述。为了利用不同视角之间的相互信息，我们建议建立以下关联：（a）原始视角 $v$ 的视觉表示，和（b）另一个视角 $d$ 与文本 $w$ 的组合表示。在产品只有一个视角的情况下，我们通过随机裁剪或水平翻转该视角来增强另一个视角。如图2(d)所示，原始视角的视觉表示由图像编码器提取，而组合表示则通过早期融合方式计算。因此，多模态输入 $[w; d]$ 与 $v$ 之间的相似性可以计算为：
$s\left ([\mathbf {w}_{i};\mathbf {d}_{i}], \mathbf {v}_{j}\right )=g_{\theta }\left (\mathbf {d}_{i}^{\mathrm {avg}}|\mathbf {w}_{i}\right )^{T} g_{\theta }\left (\mathbf {v}_{j}^{\mathrm {avg}}\right )\tag{1}$