Abstract
背景:
成对训练数据缺乏。
方法:
学习一个映射 G:X→YG:X→YG:X→Y,使得来自G(X)的图像分布与使用对抗性损失的分布Y是不可区分的。
由于该映射是高度欠约束的,将其与逆映射 F:Y→XF:Y→XF:Y→X 耦合,并引入循环一致性损失提出 F(G(X))≈XF(G(X))≈XF(G(X))≈X。
1. Introduction
提出系统:在没有任何成对的训练例子,捕捉一个图像采集的特殊特征,找出如何将这些特征转化为其他图像采集。
尽管缺乏成对示例形式的监督,但可以利用集合级别的监督:给定领域 X 中的一组图像和领域 Y 中的另一组图像。
训练一个映射 G:X→YG:X→YG:X→Y,使得 x∈Xx∈Xx∈X 的输出 y^=G(x)\hat{y} = G(x)y^=G(x) ,对于对抗器来说 y^\hat{y}y^ 与领域 Y 中的图像 yyy 无法区分。
理论上,这一目标可以在 y^\hat{y}y^ 上引导出一个输出分布,使其与经验分布 pY(y)p_Y(y)pY(y) 相匹配(通常需要 G 是随机的)。
因此,最优的 G 将领域 X 转换为分布与领域 Y 完全一致的领域 Y^\hat{Y}Y^。
然而,这种转换并不能保证输入和输出 x 与 y 在个体层面上有有意义的配对——存在无限多个映射 G,它们可以诱导出相同的 y^\hat{y}y^ 分布。
此外,在实际操作中,单独优化对抗性目标是困难的:标准程序经常导致模式崩溃问题,即所有输入图像都映射到相同的输出图像,优化无法取得进展。
这些问题促使本文在目标函数中增加更多的结构:
一个转换器 G:X→YG:X→YG:X→Y 和另一个转换器 F:Y→XF:Y→XF:Y→X,那么 G 和 F 应该互为逆函数,且两个映射应该是双映射的。
同时训练映射 G 和 F 来应用这一结构假设,并增加一个循环一致性损失,鼓励 F(G(x))≈xF(G(x))≈xF(G(x))≈x 和 G(F(y))≈yG(F(y))≈yG(F(y))≈y 。
将这一损失与域 XX 和 YY 上的对抗损失相结合,形成了本文用于无配对图像到图像转换的完整目标函数。
2. Related work
Generative Adversarial Networks(GANs)——生成对抗网络:
应用:
- image generation
- image editing
- representation learnin
- text2image
- image inpainting
- future prediction
GANs 关键在于对抗性损失,这迫使生成的图像在原则上与真实图像无法区分。
本文采用对抗性损失学习映射,使得翻译后的图像无法与目标域中的图像区分开来。
Image-to-Image Translation——图像到图像的转换:
追溯:
- Image Analogies
- 非参数化的纹理模型
- 通过卷积神经网络 (CNN) 学习一个参数化的转换函数
本文方法基于“pix2pix”框架。
该框架使用条件生成对抗网络 (cGAN) 来学习从输入到输出图像的映射。
本文在没有成对训练示例的情况下学习映射。
Unpaired Image-to-Image Translation——未成对图像到图像的转换:
近期:
- 贝叶斯框架
- CoupledGANs
- 跨模态场景网络
- 变分自动编码器
- 鼓励输入和输出共享某些“内容”特征
- 类标签空间
- 图像像素空间
- 图像特征空间
本文的公式不依赖于任何特定于任务的、预定义的输入和输出之间的相似性函数,也不假设输入和输出必须位于同一低维嵌入空间中。
Cycle Consistency——循环一致性:
近期:
- 运动结构恢复
- 3D 形状匹配
- 共分割
- 密集语义对齐
- 深度估计
使用传递性作为正则化结构化数据的一种方式由来已久。
本文类似使用循环一致性损失作为利用传递性来监督 CNN 训练的一种方式。
Neural Style Transfer——神经风格转换:
通过匹配预先训练的深度特征的Gram矩阵统计信息,将一个图像的内容与另一个图像(通常是绘画)的样式相结合,从而合成新图像。
通过尝试捕捉高层外观结构之间的对应关系,学习两个领域之间的映射,而不是两个特定的图像之间的映射。
3. Formulation

目标:在给定训练样本 { xi}i=1N∈X\{x_i\}_{i=1}^N \in X{ xi}i=1N∈X 和 { yj}j=1M∈Y\{y_j\}_{j=1}^M \in Y{ y</

最低0.47元/天 解锁文章
1377

被折叠的 条评论
为什么被折叠?



