CVPR 2021 | Few-shot Image Generation via Cross-domain Correspondence 阅读笔记 & 部分翻译

本文介绍了一种通过跨域对应关系实现的少样本图像生成方法。该方法通过保持源域实例间相对相似性和差异性,结合基于锚的策略,提高了目标域生成图像的真实感和多样性。

Few-shot Image Generation via Cross-domain Correspondence

Author Unit: Adobe Research, UC Berkeley, UC Davis

Authors: Utkarsh Ojha 1 , 2 ^{1,2} 1,2 Yijun Li 1 ^1 1 Jingwan Lu 1 ^1 1 Alexei A. Efros 1 , 3 ^{1,3} 1,3 Yong Jae Lee 2 ^2 2 Eli Shechtman 1 ^1 1 Richard Zhang 1 ^1 1

Code: https://github.com/utkarshojha/few-shot-gan-adaptation

Conference: CVPR 2021

Paper address: https://openaccess.thecvf.com/content/CVPR2021/html/Ojha_Few-Shot_Image_Generation_via_Cross-Domain_Correspondence_CVPR_2021_paper.html

Notion 版的笔记

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZrvX5TJK-1639830606186)(Few-shot%20Image%20Generation%20via%20Cross-domain%20Corresp%200e842c77b3804d9880885756c41925e7/fig_1.png)]

Abstract

我们提出通过一种新的跨域距离一致性损失(cross-domain distance consistency loss)来 维持源中实例之间的相对相似性和差异性。为了进一步减少过拟合,我们提出了一种基于锚(anchor-based)的策略,以鼓励在潜空间中不同区域的不同层次的 realism。通过在 photorealistic 和 non-photorealistic 领域的广泛结果,我们定性和定量地证明了我们的 few-shot 模型自动发现了源和目标领域之间的对应关系,并产生比以前的方法更多样化和逼真的图像。

1. Introduction

我们探索了从源域中迁移另一种信息的方式来解决少样本的数据,这种信息为 how images relate to each other。直观上来说,如果模型在源域中可以维持实例间的相对相似性和差异性,则在适应新域的时候也有机会去继承这个多样性。

在两个域之间执行这种结构级 structure-level 对齐时,会出现一些有趣的属性。具体来说,当源域和目标域相关时(如人脸和漫画),我们的方法自动发现它们之间一对一的对应关系,能够更真实地模拟目标分布的多样性和图像的真实性,如图1所示。当这两个领域不相关时(例如,汽车和漫画),我们的方法无法建模目标分布,但仍然发现有趣的部分级 part-level 对应,以生成不同的样本。

由于少量的训练样本只形成了需要近似目标分布的一个小子集,我们发现有必要以两种不同的方式加强 realism,以不过分地惩罚生成的图像之间的多样性。 我们在一张合成的图像上应用一个图像级 image-level 的对抗损失,它应该映射到一个真实的样本。对于所有其他合成图像,我们只实施一个补丁级 patch-level 的对抗损失。这样,我们生成的样本中只有一小部分需要看起来像少量训练图像中的一个,而其余的只需要捕获它们的 patch-level 纹理。

2. Related work

Few-shot learning.

Domain translation.

Distance preservation. 为了缓解 gan 中的模式崩塌,DistanceGAN[2] 建议在相应生成的输出对中保留输入对之间的距离。类似的方案被用于无条件[25,17]和有条件[18,33]的生成任务,以增加生成的多样性。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GDnCw7wy-1639830606188)(Few-shot%20Image%20Generation%20via%20Cross-domain%20Corresp%200e842c77b3804d9880885756c41925e7/fig_2.png)]

3. Approach

We are given a source generator G s G_s Gs, trained on a large source dataset D s \mathcal{D}_s Ds, which maps noise vectors z ∼ p z ( z ) ⊂ Z z∼ p_z (z)⊂ \mathcal{Z} zpz(z)Z , drawn from a simple distribution in a low-dimensional space, into images x x x. We aim to learn an adapted generator G s → t G_{s\to t} Gst by initializing the weights to the source generator and fitting it to a small target dataset D t \mathcal{D}_t Dt. discriminator D.

L adv  ( G , D ) = D ( G ( z ) ) − D ( x ) G s → t ∗ = E z ∼ p z ( z ) , x ∼ D t arg ⁡ min ⁡ G max ⁡ D L adv  ( G , D ) . ( 1 ) \begin{gathered} \mathcal{L}_{\text {adv }}(G, D)=D(G(z))-D(x) \\ {G_{s \rightarrow t}^{*}=\mathbb{E}_{z \sim p_{z}(z), x \sim \mathcal{D}_{t}}} \arg \min _{G} \max _{D} \mathcal{L}_{\text {adv }}(G, D) . \end{gathered} (1) Ladv (G,D)=D(G(z))D(x)Gst

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值