论文链接: https://arxiv.org/abs/1606.07536v2
Github 项目地址: https://github.com/mingyuliutw/cogan
本文提出耦合的生成对抗网络(CoGAN), 以学习多域图像的联合分布. 与现有方法不同, 后者需要训练集中不同域中对应图像的元组, 而 CoGAN 可以学习联合分布而无需任何对应图像的元组. 它可以仅从边际分布中抽取样本来学习联合分布. 这是通过实施权重共享约束来实现的, 该约束限制了网络的容量, 并且偏爱联合分配解决方案而不是边际分配的乘积. 我们将 CoGAN 应用于多个联合分布学习任务, 包括学习彩色和深度图像的联合分布, 以及学习具有不同属性的人脸图像的联合分布. 对于每个任务, 它成功地学习了联合分布, 而没有任何对应的图像元组. 我们还将展示其在领域自适应和图像转换中的应用.
多域图像的联合分布是一种概率密度函数, 它为不同域中的图像 (例如, 具有不同模态的同一场景的图像或具有不同属性的同一张脸的图像) 的每次联合出现提供密度值. 一旦学习到这种联合分布, 就可以用来生成图像元组. 除了电影和游戏制作外, 联合图像分发学习还可以在图像变换和领域适应中找到应用.
相关的工作
多领域图像学习已经有许多研究 [1, 2, 3, 4], 但这些需要手动创建图像元组, 这是一个繁琐的任务.
本文的方法
CoGAN 结构由两个 GAN 网络耦合而成, 即共享一部分权重, 如下图所示:
两个生成器在前面几层共享同一组权重, 用来解码高层次的语义信息, 而后则分离开, 用于解码低层次的语义信息, 即更具体的图片生成.
而对于两个鉴别器, 前面几层不共享权重, 用于提取低层次的图片特征, 后面几层共享权重, 用于提取高层次的特征.
具体的优化目标为:
V
(
f
1
,
f
2
,
g
1
,
g
2
)
=
E
x
1
∼
p
X
1
[
−
log
f
1
(
x
1
)
]
+
E
z
∼
p
Z
[
−
log
(
1
−
f
1
(
g
1
(
z
)
)
)
]
+
E
x
2
∼
p
X
2
[
−
log
f
2
(
x
2
)
]
+
E
z
∼
p
Z
[
−
log
(
1
−
f
2
(
g
2
(
z
)
)
)
]
\begin{aligned}V\left(f_{1}, f_{2}, g_{1}, g_{2}\right) &=E_{\mathbf{x}_{1} \sim p_{\mathbf{X}_{1}}}\left[-\log f_{1}\left(\mathbf{x}_{1}\right)\right]+E_{\mathbf{z} \sim p_{\mathbf{Z}}}\left[-\log \left(1-f_{1}\left(g_{1}(\mathbf{z})\right)\right)\right] \\&+E_{\mathbf{x}_{2} \sim p_{\mathbf{X}_{2}}}\left[-\log f_{2}\left(\mathbf{x}_{2}\right)\right]+E_{\mathbf{z} \sim p_{\mathbf{Z}}}\left[-\log \left(1-f_{2}\left(g_{2}(\mathbf{z})\right)\right)\right]\end{aligned}
V(f1,f2,g1,g2)=Ex1∼pX1[−logf1(x1)]+Ez∼pZ[−log(1−f1(g1(z)))]+Ex2∼pX2[−logf2(x2)]+Ez∼pZ[−log(1−f2(g2(z)))]
参考
- [1] Nitish Srivastava and Ruslan R Salakhutdinov. Multimodal learning with deep boltzmann machines. In NIPS, 2012.
- [2] Shenlong Wang, Lei Zhang, Yan Liang, and Quan Pan. Semi-coupled dictionary learning with applications to image super-resolution and photo-sketch synthesis. In CVPR, 2012.
- [3] Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, Honglak Lee, and Andrew Y Ng. Multimodal deep learning. In ICML, 2011.
- [4] Jianchao Yang, John Wright, Thomas S Huang, andYiMa. Image super-resolutionvia sparse representation. IEEE TIP, 2010.