【论文笔记】Unpaired Photo-to-Caricature Translation on Faces in the Wild

最新推荐文章于 2024-03-25 16:33:27 发布

xinzi2018

最新推荐文章于 2024-03-25 16:33:27 发布

阅读量706

点赞数

分类专栏：深度学习文章标签： unpaired p2c

本文链接：https://blog.youkuaiyun.com/weixin_42105640/article/details/87966779

版权

深度学习专栏收录该内容

10 篇文章

订阅专栏

Unpaired Photo-to-Caricature Translation on Faces in the Wild

Abstract:

一些基于 cycle consistency loss的unpaired methods 就像DualGAN, CycleGAN and DiscoGAN 是非常受欢迎的。然而，对于需要high-level视觉信息转换的翻译任务来说仍然是非常具有挑战性的。我们提出了一种学习将faces in the wild从 the source photo domain转换到具有不同样式的target caricature domain的方法，该方法也可用于其他高级别的图像翻译任务。

为在翻译时捕获具有本地统计信息的全局结构，我们设计了一个双路径（dual pathway）模型：（coarse discriminator and one fine discriminator）。coarse discriminator 负责全局结构信息。fine discriminator负责关于本地统计信息
对于生成器，我们额外提供一个与adversarial loss 和cycle consistency loss相关的perceptual loss，以实现两个不同域的表征学习。这个perceptual loss使generated output 与 unpaired target domain image保持一致。
为了提高模型的鲁棒性，我们设计了一种noise-added training procedure.受InfoGAN的影响，我们发现auxiliary noise 可以帮助模型在翻译任务中学习卡通风格信息。

我们的动机是设计一个具有多个鉴别器的对抗训练，以提高GAN鉴别器在特征表示方面的能力。通过使用我们提出的方法，the photos of faces in the wild可以被翻译成具有学习的通用夸张艺术风格的漫画，同时仍然保持原始逼真的表达。

3.method

我们原先的CGAN的目标函数表示为 $L_c(G,D)=E_{x,y \sim p_{data}(x,y)}[logD(x,y)]+E_{x \sim P_{data}(x)}[log(1-D(x,G(x)))]$
在这里插入图片描述

3.1 Cycle consistency loss

关于这个知识点详细可见论文[1]
在这里插入图片描述
$L_{cyc}(G1,G2)=E{x \sim P_{data(x)}}[||G_2(G_1(x))-x||_1]+E_{y \sim P_{data(y)}}[||G_1(G_2(y))-y||_1]$
（ps:此处的公式我们使用L1 loss来计算）

3.2 Perceptual loss

为了进一步减小域间映射函数的空间间隔，我们将perceptual loss $L_p$ 应用于模型中。(我们采用的是content loss,也称为perceptual similarity loss或feature matching。)

我们将perceptual loss应用于我们的模型，然后是cycle consistence loss，并计算来自不同域的不成对图像之间的perceptual loss，以推动生成器捕获特征表示。
在这里插入图片描述

φ是一个预先训练过的visual perception network(我们在实验中使用预训练的VGG-19)。
n是feature map的数目，网络中的不同层表示从低到高级别的信息。

3.3 Auxiliary noise input

为了提高图像的鲁棒性，丰富域间图像转换的多样性，在翻译之前，我们设计了一个noise-added training procedure。
步骤：

我们从随机均匀分布中得到一个随机噪声输入。（0-255）
我们将噪声输入和原始图像输入合并，使用近似权值获取最终输入。

$x=x_i * \alpha+(1-\alpha)*n$
这里，我们将α定义为原始图像占最终图像的比例。
$x_i$ 为原始输入；n 表示均匀分布(uniform distribution) $P_{noise}$ 的噪声.

根据加入了auxiliary noise input 我们的 $L_c$ 需要做相应的改变，公式如下所示。
$L_c(G,D)=E_{x,y \sim P_{data(x,y)}}[logD_(x,y)]+E_{x \sim P_{data(x)},n \sim P_{noise(n)}}[log(1-D(x,G(x,n))]$

3.4 Dual discriminators

传统的训练方法通常只有一个generator和一个discriminator。与之不同的是，我们设计了两种不同的discriminator来捕获不同层次的信息。
coarse discriminator
目的是鼓励生成基于全局风格和结构信息的图像合成，用于领域翻译。
fine discriminator
目的是实现特征匹配，帮助生成更合理、更精确的图像,而精细匹配则是对人脸细节的训练,例如嘴唇和眼睛。

这里有和论文[2]不同之处:我们不使用image patch作为local discriminator的输入。我们提供两者的整体图像作为输入，而两者的输出是不同的。coarse discriminator的输出是4×4的，而 fine discriminator的输出是16×16的。这两个判别网络的最后一层都是sigmoid function。注意这个16×16和4×4是可以改变的，此处的设定是因为在该设定下实验效果能达到最好。

3.5 Generator

在这里插入图片描述
γ和σ是平衡各损失对目标贡献的参数。(γ = 10 and σ = 2.0)
如图2所示，我们使用Conv-Residual blocks-Deconv作为生成器，直接在输入和输出之间共享低级和高级信息。

4.Experiments

4.1 Dataset and training

我们提出的模型在配对的脸部照片漫画数据集上以受监督的不成对方式进行训练，名为IIIT-CFW-P2C数据集,这个数据集是在由IIIT-CFW重建的。

IIIT-CFW数据集包含了来自名人的8928张卡通图片以及1000张真实人脸照片。然而，它不适用于使用一些成对的方法对照片到漫画翻译任务的训练，因为脸部照片和面部照片不是成对的。因此，我们通过搜索匹配数据集和因特网作为比较实验的训练集，重建了一个具有1171对配对图像的图像数据集。在这里我们使用其中800对进行训练，其余的用来作为测试。