DualGAN

最新推荐文章于 2024-08-10 08:38:10 发布

原创最新推荐文章于 2024-08-10 08:38:10 发布 · 2.1k 阅读

4 ·

CC 4.0 BY-SA版权

Deep Learning 同时被 2 个专栏收录

50 篇文章

订阅专栏

GAN

46 篇文章

订阅专栏

DualGAN是一种无监督学习模型，用于实现不同图像域间的转换。该模型采用两个生成器和两个判别器，利用Wasserstein loss进行训练，提高了样本质量和算法稳定性。通过对比实验，DualGAN在多数情况下优于GAN和CGAN。

部署运行你感兴趣的模型镜像

ICCV 2017 《DualGAN:Unsupervised Dual Learning for Image-to-Image Translation》

github

这篇论文和前面看过的《Learning to Discover Cross-Domain Relations with Generative Adversarial Networks》（参见：https://blog.youkuaiyun.com/Forlogen/article/details/89003879）和《Image-to-Image Translation with Conditional Adversarial Networks》（参见：https://blog.youkuaiyun.com/Forlogen/article/details/89045651）中的内容基本上是相近的。作者也是提出了一种DualGAN的模型，在没有标签数据的前提下，实现在两个不同的域之间的图像转换。整体的算法思想和DiscoGAN、CycleGAN是一致的，并没有什么不同之处，只是名字不一样~~

算法

所以下面主要介绍一下这篇论文的某些好的地方，其余和上面提到过的两篇论文相同的地方就不赘述了。

先看下它的模型架构：

这里也是两个生成器和两个判别器，计算判别损失和重构损失。不同之处在于他这里使用的是WGAN中的损失函数Wasseratein loss，而不是标准GAN中使用的交叉熵，它的优点如下：

生成模型的收敛性好
生成的样本质量高
优化过程稳定性好
任何地方都是可微的，方便求梯度

因此 $D_{A}$ 和 $D_{B}$ 的损失函数定义如下：
$l_{A}^d(u,v) = D_{A}(G_{A}(u,z))-D_{A}(v) \\ l_{B}^d(u,v) = D_{B}(G_{B}(v,z'))-D_{B}(u)$
整体损失为：
$l^g(u,v)=\lambda_{U}||u-G_{B}(G_{A}(u,z),z')||+\lambda_{V}||u-G_{A}(G_{B}(v,z'),z)||-D_{B}(G_{B}(v,z'))-D_{A}(G_{A}(u,z))$
其中 $\lambda_{U}$ 和 $\lambda_{V}$ 是两个常参数，取值范围为 $[100.0, 1, 000.0]$ ，同时作者提出，如果U中包含自然的图像，而V中没有时，要使用的 $\lambda_{U}$ 小于 $\lambda_{V}$ 。

网络架构和《Image-to-Image Translation with Conditional Adversarial Networks》中的一样，这样既可以抓住图像局部高频的信息，也可以通过重构损失抓住全局的、低频的信息。

算法伪代码如下：

训练的过程和WGAN一样，使用小批次随机梯度下降，并使用RMSProp优化器（有关梯度下降的相关优化方法可参见：https://blog.youkuaiyun.com/Forlogen/article/details/88778770）；D的训练轮次是2-4；批大小为1-4；剪裁系数 $c$ 取自 $[0.01, 0.1]$ 。其中 $clip(\omega_{A},-c,c),clip(\omega_{B},-c,c)$ 这一步的含义待下一篇WGAN在了解。