MM2022 | 用StyleGAN进行数据增强,真的太好用了

本文介绍一种新框架,使用StyleGAN2生成高质量图像并结合文本特征映射,实现细粒度图像到文本跨模态检索任务的数据增强,有效提升模型性能。

MM2022 | 用StyleGAN进行数据增强,真的太好用了

【写在前面】

本文研究了生成文本-图像对的开放性研究问题,以改进细粒度图像到文本跨模态检索任务的训练,并提出了一种通过揭示StyleGAN2模型隐藏的语义信息来增强配对数据的新框架。具体来说,作者首先在给定的数据集上训练StyleGAN2模型。然后,将真实图像投影回StyleGAN2的潜在空间,以获得潜在代码。为了使生成的图像具有可操作性,进一步引入了潜在空间对齐模块来学习StyleGAN2潜在代码与相应文本字幕特征之间的对齐。当进行在线配对数据增强时,作者首先通过随机token替换生成增强文本,然后将增强文本传递到潜在空间对齐模块以输出潜在代码,最后将潜在代码馈送到StyleGAN2以生成增强图像。作者在两个公共跨模态检索数据集上评估了本文的增强数据方法的有效性,其中有希望的实验结果表明,增强的文本-图像对数据可以与原始数据一起训练,以提高图像到文本的跨模态检索性能。

1. 论文和代码地址

Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval

论文地址:https://arxiv.org/abs/2207.14428

代码地址:未开源

2. Motivation

为基于深度学习的模型训练收集大量数据标注通常比较困难或昂贵,因此自动数据扩充已被广泛用作提高模型性能的实用技术。现有方法主要局限于单模态数据增强。具体而言,视觉Transformer采用了随机增强和随机擦除,以提高模型性能。然而,目前关于成对跨模态文本图像数据的数据增强技术的研究很少。如果想同时对文本和图像进行数据扩充,并构建有用的文本图像对,挑战似乎是:如何生成具有相同语义信息的扩充文本图像对?

为了解决图像到文本跨模态检索任务的成对数据增强问题,作者提出了一种新的成对文本图像数据增强算法,该算法可以与当前流行的单模态数据增强策略一起使用,并且易于插入现有的检索方法。具体而言,由于文本是由各种词token的组合形成的,因此增加语义词组合的数量可以是一种简单而有效的方法,以产生更多样化的文本特征,从而实现稳健的推理。这意味着可以随机替换文本标题中的部分单词,以构建增强文本。为了进一步匹配增强文本和图像之间的语义一致性,作者从增强文本生成增强图像。

作者利用StyleGAN2模型,该模型可以生成高质量和多样性的图像。值得注意的是,作者在没有条件文本输入的情况下训练StyleGAN2,否则模型生成性能将受到有限的文本图像对的限制。由于StyleGAN的潜在空间W已被证明与语义内容分离,StyleGAN2的分离性使得能够对生成的图像进行有效的语义操作。为此,作者首先将真实图像投影回经过训练的StyleGAN2的潜在空间W,在那里可以获得可用于重建给定图像的潜在代码W。利用投影的w和相应的文本标题,将文本特征映射到空间w,并学习成对w-文本特征表示之间的对齐模型。该过程如上图所示。作者将增强文本输入到经过训练的潜在空间对齐模块中,输出可以用作StyleGAN2的潜在代码w,以生成增强图像。因此,可以获得语义一致的成对增强文本图像数据。

为了评估增强配对数据的有效性,作者对细粒度图像到文本跨模态检索任务进行了实验。受现有生成模型生成能力的限制,很难生成具有多个对象的图像,例如COCO数据集的图像。最近提出的XMC-GAN采用复杂的体系结构来生成像样的COCO图像,这不可能在检索训练期间从文本在线生成增强图像。因此,这里重点关注具有单对象图像的数据集。

在图像到文本跨模态检索任务中,给定一个模态(例如文本)的样本,模型需要从另一个模态中找到相应的数据样本(例如图像),反之亦然。由于本文的跨模态数据增强方法可以在线提供无限的原始文本-图像对,因此可以在现有数据增强方法和检索模型的基础上使用。作者使用多个设置和模型主干进行了实验,实验表明,使用本文的方法的模型可以在两个公共数据集上提高原始性能。最后,作者还给出了扩充数据的定性结果。

在本文中,作者开发了一种新的框架来生成新的文本-图像数据对,以解决跨模态数据扩充问题。本文的模型包括几个新的贡献:(i)提出了一种方法来解决生成的文本和图像之间语义一致性的挑战,这可以通过StyleGAN2模型的投影潜在代码来实现;(ii)作者用随机方法构造增广文本token替换,然后将增强文本传递到潜在空间对齐模块以给出潜在代码,这些代码被馈送到StyleGAN2中以生成增强图像;(iii)作者将所提出的算法应用于图像到文本检索任务,并提高了基准模型的性能。

3. 方法

本文提出的成对交叉模态数据增强方法如上图所示。整个流程可总结为以下三阶段训练方案:

阶段1:仅使用图像训练StyleGAN2模型。StyleGAN2模型将随机噪声空间Z映射到样式潜在空间W,该空间被分离并有助于生成高质量和多样性的图像。

阶段2:将真实图像投影回潜在空间W,并获得给定图像的潜在代码w。然后,学习一个潜在空间对齐模块 E l E_{l} El , 其中,文本特征映射为与相应的潜在代码w对齐。

阶段3:以在线方式进行跨模态数据扩充。通过随机token替换来构造增强文本。然后,将增强文本输入到经过训练的对齐模块中 E l E_{l} El , 其输出可用作StyleGAN2的潜代码w以生成增强图像。

3.1 Image projection to latent space

StyleGAN2模型可以表示为 G ( ⋅ ) : Z → X G(\cdot): \mathcal{Z} \rightarrow \mathcal{X} G():ZX,其中模型使用多层感知器 (MLP) 将初始噪声空间Z映射到样式潜在空间W。然后,StyleGAN2根据解纠缠空间W的潜在代码w生成图像。在给定数据集上训练StyleGAN2模型后,将真实图像投影回潜在空间W。

在这个模块中,将潜在代码w∈ W用于优化。具体地说,首先运行10000个随机噪声输入z,以产生映射的潜代码w=MLP(z)。使用平均值 μ w = E Z MLP ⁡ ( z ) \mu_{\mathrm{w}}=\mathbb{E}_{\mathrm{Z}} \operatorname{MLP}(\mathrm{z}) μw=EZMLP(z)作为w的初始化,并且w的近似尺度可以设置为: σ w 2 = E z ∥ M L P ( z ) − μ w ∥ 2 2 \sigma_{\mathrm{w}}^{2}=\mathbb{E}_{\mathrm{z}}\left\|\mathrm{MLP}(\mathrm{z})-\mu_{\mathrm{w}}\right\|_{2}^{2} σw2=EzMLP(z)μw22,是到中心的平均平方欧几里德距离。作者采用 w ~ = w + N ( 0 , 0.05 σ w k 2 ) \tilde{\mathrm{w}}=\mathrm{w}+\mathcal{N}\left(0,0.05 \sigma_{\mathrm{w}} k^{2}\right) w~=w+N(0,0.05σwk

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值