[论文笔记]Fader Networks: Manipulating Images by Sliding Attributes(2017 NIPS)

本文介绍FaderNetworks,一种创新的encoder-decoder结构,能从图像中分离并操纵属性,如性别、年龄等,实现对图像属性的精确控制,而保持图像的自然属性和人物身份不变。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Fader Networks: Manipulating Images by Sliding Attributes(2017 NIPS)

文章简介:

本文介绍了一种新的encoder-decoder结构,该结构通过训练,将图像的显著信息与隐藏空间中的属性值直接分离,从而重构图像。

  • Dataset: CelebA 、 Oxford-102
  • Challenge: transformations是ill-defined并且训练是无监督的,即在训练集中包含着感兴趣的属性注释的图像,但没有属性转换后的图像,简单地说就是如果感兴趣的属性为性别,显然不可能会有男性<->女性的配对数据集
  • 符号说明

训练集就是一对对pair:(x, y), 最终的目标是可以通过y来生成相应的x

x: img
y: attributes
z: latent representaton, 通过encoder原始图片获得
  • 效果初览:

本文提出的方法可以对人像进行细微的改变,在不改变图像的自然属性和人物身份的同时可以最终改变属性的视觉效果

Encoder-decoder architecture:

结构图:

The auto-encoding loss:

在理想情况下,修改D(E(x),y)D(E(x), y)D(E(x),y)中的yyy就会产生不同感知属性的图像,然后,仅仅只有下面的约束,而不加入其他约束的话,这个decoder会逐渐忽略attribute,最终在测试阶段,改变yyy不会产生任何效果。

Learning attribute-invariant latent representations:

因此作者要避免出现上面的情况,于是采用的方法是去学习相对于attribute而言不变的潜在表示。即
E(戴眼镜的路人甲)=E(不戴眼镜的路人甲) E(戴眼镜的路人甲)=E(不戴眼镜的路人甲) E()=E()

  • 难点:
    训练集中并没有包含不同穿着的相同人物,所以不能直接添加这个约束(loss)
  • 解决方法:
    采用一个Discriminator来进行对抗训练,这个Discriminator将被训练去达到一个目标:
    P(1−y∣E(x))→1 P(1-y|E(x))\rightarrow1 P(1yE(x))1
     即想要达到Encoder的编码无法被Discriminator识别成正确的attribute(即y),其实感觉这是一种近似,但是总感觉有一丝丝的不太合理呢

Adversarial objective:

所以对抗训练的目标为:decoder应该能够通过E(X)E(X)E(X)yyy重建xxx, 并且于此同时,Discriminator需要让E(x)E(x)E(x)yyy尽可能地不同


如果觉得我有地方讲的不好的或者有错误的欢迎给我留言,谢谢大家阅读(点个赞我可是会很开心的哦)~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值