[解读] Coupled Generative Adversarial Networks

论文链接: https://arxiv.org/abs/1606.07536v2

Github 项目地址: https://github.com/mingyuliutw/cogan

本文提出耦合的生成对抗网络(CoGAN), 以学习多域图像的联合分布. 与现有方法不同, 后者需要训练集中不同域中对应图像的元组, 而 CoGAN 可以学习联合分布而无需任何对应图像的元组. 它可以仅从边际分布中抽取样本来学习联合分布. 这是通过实施权重共享约束来实现的, 该约束限制了网络的容量, 并且偏爱联合分配解决方案而不是边际分配的乘积. 我们将 CoGAN 应用于多个联合分布学习任务, 包括学习彩色和深度图像的联合分布, 以及学习具有不同属性的人脸图像的联合分布. 对于每个任务, 它成功地学习了联合分布, 而没有任何对应的图像元组. 我们还将展示其在领域自适应和图像转换中的应用.

多域图像的联合分布是一种概率密度函数, 它为不同域中的图像 (例如, 具有不同模态的同一场景的图像或具有不同属性的同一张脸的图像) 的每次联合出现提供密度值. 一旦学习到这种联合分布, 就可以用来生成图像元组. 除了电影和游戏制作外, 联合图像分发学习还可以在图像变换和领域适应中找到应用.

相关的工作

多领域图像学习已经有许多研究 [1, 2, 3, 4], 但这些需要手动创建图像元组, 这是一个繁琐的任务.

本文的方法

CoGAN 结构由两个 GAN 网络耦合而成, 即共享一部分权重, 如下图所示:

在这里插入图片描述

两个生成器在前面几层共享同一组权重, 用来解码高层次的语义信息, 而后则分离开, 用于解码低层次的语义信息, 即更具体的图片生成.

而对于两个鉴别器, 前面几层不共享权重, 用于提取低层次的图片特征, 后面几层共享权重, 用于提取高层次的特征.

具体的优化目标为:
V ( f 1 , f 2 , g 1 , g 2 ) = E x 1 ∼ p X 1 [ − log ⁡ f 1 ( x 1 ) ] + E z ∼ p Z [ − log ⁡ ( 1 − f 1 ( g 1 ( z ) ) ) ] + E x 2 ∼ p X 2 [ − log ⁡ f 2 ( x 2 ) ] + E z ∼ p Z [ − log ⁡ ( 1 − f 2 ( g 2 ( z ) ) ) ] \begin{aligned}V\left(f_{1}, f_{2}, g_{1}, g_{2}\right) &=E_{\mathbf{x}_{1} \sim p_{\mathbf{X}_{1}}}\left[-\log f_{1}\left(\mathbf{x}_{1}\right)\right]+E_{\mathbf{z} \sim p_{\mathbf{Z}}}\left[-\log \left(1-f_{1}\left(g_{1}(\mathbf{z})\right)\right)\right] \\&+E_{\mathbf{x}_{2} \sim p_{\mathbf{X}_{2}}}\left[-\log f_{2}\left(\mathbf{x}_{2}\right)\right]+E_{\mathbf{z} \sim p_{\mathbf{Z}}}\left[-\log \left(1-f_{2}\left(g_{2}(\mathbf{z})\right)\right)\right]\end{aligned} V(f1,f2,g1,g2)=Ex1pX1[logf1(x1)]+EzpZ[log(1f1(g1(z)))]+Ex2pX2[logf2(x2)]+EzpZ[log(1f2(g2(z)))]

参考

  • [1] Nitish Srivastava and Ruslan R Salakhutdinov. Multimodal learning with deep boltzmann machines. In NIPS, 2012.
  • [2] Shenlong Wang, Lei Zhang, Yan Liang, and Quan Pan. Semi-coupled dictionary learning with applications to image super-resolution and photo-sketch synthesis. In CVPR, 2012.
  • [3] Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, Honglak Lee, and Andrew Y Ng. Multimodal deep learning. In ICML, 2011.
  • [4] Jianchao Yang, John Wright, Thomas S Huang, andYiMa. Image super-resolutionvia sparse representation. IEEE TIP, 2010.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值