Interpreting the Latent Space of GANs for Semantic Face Editing

主要参考:Interpreting the Latent Space of GANs for Semantic Face Editing - dawningblue - 博客园

https://zhuanlan.zhihu.com/p/140553228

性质1 性质1懒得翻译了,这个主要说的是如何找超平面,也就是一个平面的定义是又法向量来确定的。 

性质2 性质二也懒得翻译的latex打到吐血。它其实说了这么一个事情,空间上的点到某个平面的距离,在一个比较大的概率上都在某个区域内,如果这个空间的点服从某种分布。  

2.2. Manipulation in the Latent Space

在这一部分中,我们介绍了如何利用潜在空间中的语义进行图像编辑。 
Single Attribute Manipulation 根据公式(2),为了操纵合成图像的属性,我们可以用zedit = z+αn轻松地编辑原始潜代码z。使用α>0将使合成在这种语义上看起来更积极;因为经过编辑后分数变为f(g(zedit)) = f(g(z)) + λα。同样,α<0会让合成看起来更负。

Conditional Manipulation 当有多个属性时,编辑一个属性可能会影响另一个属性,因为一些语义可以相互耦合。为了实现更精确的控制,我们提出了条件操作,手动强制式(5)中的N^TN为对角阵。特别地,我们使用投影来正交不同的向量。如图2所示,给定两个法向量n1和n2的超平面,我们得到了一个投影方向n1−(n1^Tn2)n2,使得沿着这个新方向移动样本可以改变“属性1”而不影响“属性2”。我们称这种操作为条件操作。如果有多个属性需要条件化,我们只需减去原始方向到由所有条件化方向构成的平面上的投影。 

Real Image Manipulation 由于我们的方法支持从固定GAN模型的潜在空间进行语义编辑,因此在执行操作之前,我们需要首先将真实图像映射到潜在代码。为此,已有方法提出直接优化潜码以最小化重构损失[27],或学习额外的编码器将目标图像反演回潜空间[42,5]。还有一些模型已经包含了编码器和GANs的训练过程[13,12,41],我们可以直接使用它们进行推理。 

评价指标:

衡量潜在空间(latent space)中属性解耦(disentanglement)程度 (解耦指的是在潜在空间中,不同属性是否能够被清晰地区分开来,以便可以独立地操纵或控制):

  1. 感知路径长度:这个概念通常用于描述在潜在空间中,从一个属性状态变化到另一个属性状态所需的“距离”或“路径”。如果两个属性在潜在空间中的变化路径较长,这意味着它们的变化是相对独立的,不容易相互影响。这可以被看作是属性之间解耦的一个指标。

  2. 线性可分性:这个概念指的是在潜在空间中,不同属性的状态是否可以用线性边界(如直线或超平面)来区分。如果属性是线性可分的,那么意味着存在一个线性模型能够将不同属性的状态清晰地区分开来。这是衡量属性是否在潜在空间中被清晰分离的另一个指标。

本文, 作者的方法更侧重于研究不同隐藏语义之间的关系以及它们是如何相互耦合的。他们使用了两种不同的度量来衡量两个属性之间的相关性:余弦相似度和相关系数。

  • 余弦相似度:用于衡量两个方向(在这里是属性的表示)之间的相似性,计算公式为两个单位向量的点积
  • 相关系数:用于衡量两个属性分数(作为随机变量)之间的线性关系,计算公式涉及到两个属性的协方差和标准差

通过这些度量,作者发现他们的模型(InterFaceGAN)能够准确地识别潜在空间中隐藏的语义,并且发现某些属性(如姿势和微笑)几乎与其他属性正交(即独立),而其他属性(如性别、年龄和眼镜)则高度相关。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值