MSCap: Multi-Style Image Captioning with Unpaired Stylized Text

最新推荐文章于 2022-12-27 16:28:23 发布

原创最新推荐文章于 2022-12-27 16:28:23 发布 · 1.6k 阅读

4 ·

CC 4.0 BY-SA版权

论文笔记专栏收录该内容

41 篇文章

订阅专栏

本文提出MSCap模型，用于多风格图像字幕生成。该模型由五个子网络组成，通过对抗学习网络，仅利用图像字幕数据原有标签和不成对的风格化字幕来生成多风格字幕。还设计了依赖风格的字幕生成器，引入反向翻译模块保证字幕与图像内容一致，并进行了定量和定性分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MSCap: Multi-Style Image Captioning with Unpaired Stylized Text

原文地址

时间：2019 CVPR

题外话，这篇文章思路写的非常清楚，读起来很舒服

Intro

当前的image captioning方法通常生成一些客观的描述，而没有关于语言学上的研究，如图，展示了不同风格的caption
在这里插入图片描述
之前的相关工作也有将image caption的表达更丰富化的工作，但它们都无法同时生成多个风格的caption，为了生成 $k$ 种不同的表达，往往需要 $k$ 个不同的模型，为了解决这个问题，我们提出了一个multi-style image captioning(MSCap)模型，通过对抗学习网络来同时生成多风格的image caption，仅仅使用image caption数据上的原有img-caption标签和unpaired的风格化的caption。

本文的贡献：

提出了MSCap，一个生成多风格的caption的模型
设计了style-dependent的caption generator，可以利用不成对的风格化caption作为预训练，然后引入back-translation模块来保证生成的caption和图像内容一致
进行了定量和定性分析

MSCap for Multi-Style Image Captioning

overview

如图所示
在这里插入图片描述
整个模型由五个子网络组成，image Encoder $E$ ，caption generator $G$ ，caption discriminator $D$ ，style classifier $C$ ，和back-translation network $T$ ，给定数据集 $P={(x,\hat{y}_f)}$ ，以及unpaired的风格化的corpse $P^u={(\hat{y}_s,s)},s\in\{s_1,...,s_k\}$ 包括 $k$ 个不同的caption， $\hat{y}_s$ 是风格 $s$ 的caption，记 $\hat{y}_f$ 有factual风格，记为 $s_0$ ，记拓展的风格化corpse为 $P'={(\hat{y}_s,s)},s\in\{s_0,...,s_k\}$ ，我们的目标是生成句子 $y$ ，使得(1) $y$ 是一个自然的句子，(2) $y$ 是风格 $s$ 的，(3)(x,y)是相关的

Caption Generator $G$ 根据图片编码向量 $E (x)$ 和目标风格 $s$ 来生成句子 $y = G (E (x), s)$ ，然后喂给 $D, C, T$ ，来使得它分别满足每个条件，其中discriminator $D$ 分类器就是分别 $y$ 是否是自然语言输出，style classifier $C$ 输出 $y$ 属于 $k + 1$ 个类别的概率，back-translation module $T$ 用来保证 $y$ 是视觉上基于 $x$ 的，这通过将 $y$ 翻译到 $\hat{y}_f$ 实现

Image Encoder

本文使用context vector $c^v=E(x)$

Caption Generator

condition $G$ on style labels，本文使用 $k + 1$ 维one-hot向量来编码风格，然后通过一个embedding层concat到输入的word embedding上得到 $w_t$ ，作为LSTM每步的输入

Enable training on unpaired corpus，在unpaired数据集上训练的常规方法是需要图片特征的，但unpaired数据集上没有这个特征，因此我们采用了merging和style gate（如图(b)所示）
在这里插入图片描述
我们首先将visual context移出LSTM，让LSTM仅仅建模语言信息，然后引入一个额外的multimodal fusion module来融合visual context $c^v$ 和liguistic context $c^l_t$ 来预测词。style gate为词的预测提供了一个plan B，当没有图片时仅仅依赖 $c^l_t$ ，综合的信息取两者的加权和
在这里插入图片描述
$c_t$ 是mixed context vector， $h_t$ 是LSTM的隐藏状态，且

$c^l_t=l_t\odot tanh(m_t)$

其中 $l_t$ 是gate vector， $m_t$ 是memory cell state，然后预测下一个词
在这里插入图片描述
其中 $\tau$ 是temperature parameter，训练的unpaired的数据的时候，将 $g_t$ 设置为1即可，此时模型完全依赖于linguistic context

我们在paired的数据和unpaired的数据上预训练caption generator，通过最大化对数似然
在这里插入图片描述

Adversarial Loss

discriminator $D$ 用来区分generator $G$ 的生成结果
在这里插入图片描述
其中 $\hat{y}$ 是真实的caption

Style Classification Loss

在这里插入图片描述

Back-Translation Loss

这一步将生成的caption和image关联起来，基于假设 $x$ 和 $\hat{y}_f$ 拥有相同的信息，则生成的caption $y$ 和图片 $x$ 的相关性就可以通过 $y$ 和ground truth $\hat{y}_f$ 来估计，所以我们限制 $y$ 和 $\hat{y}_f$ 的内容一致，这通过使用back-translation module T将 $y$ 翻译会 $y_f$ 来实现，即 $T(y,s)\to\hat{y}_f$ ，T通过multilingual neural machine translation(NMT) network来实现，以encoder和decoder组成，目标是最小化
在这里插入图片描述
另一种方法是将 $y$ 直接翻译成图片，但这比较困难