[论文笔记]Fader Networks: Manipulating Images by Sliding Attributes(2017 NIPS)

最新推荐文章于 2024-05-17 09:56:23 发布

原创最新推荐文章于 2024-05-17 09:56:23 发布 · 1.8k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#对抗攻击 #adversary attack

深度学习/机器学习专栏收录该内容

37 篇文章

订阅专栏

本文介绍FaderNetworks，一种创新的encoder-decoder结构，能从图像中分离并操纵属性，如性别、年龄等，实现对图像属性的精确控制，而保持图像的自然属性和人物身份不变。

Fader Networks: Manipulating Images by Sliding Attributes(2017 NIPS)

文章简介:

本文介绍了一种新的encoder-decoder结构，该结构通过训练，将图像的显著信息与隐藏空间中的属性值直接分离，从而重构图像。

Dataset: CelebA 、 Oxford-102
Challenge: transformations是ill-defined并且训练是无监督的，即在训练集中包含着感兴趣的属性注释的图像，但没有属性转换后的图像，简单地说就是如果感兴趣的属性为性别，显然不可能会有男性<->女性的配对数据集
符号说明

训练集就是一对对pair:(x, y), 最终的目标是可以通过y来生成相应的x

x: img
y: attributes
z: latent representaton, 通过encoder原始图片获得

效果初览：

本文提出的方法可以对人像进行细微的改变，在不改变图像的自然属性和人物身份的同时可以最终改变属性的视觉效果

Encoder-decoder architecture：

结构图：

The auto-encoding loss：

在理想情况下，修改 $D (E (x), y)$ 中的 $y$ 就会产生不同感知属性的图像，然后，仅仅只有下面的约束，而不加入其他约束的话，这个decoder会逐渐忽略attribute，最终在测试阶段，改变 $y$ 不会产生任何效果。

Learning attribute-invariant latent representations：

因此作者要避免出现上面的情况，于是采用的方法是去学习相对于attribute而言不变的潜在表示。即
$E (戴眼镜的路人甲) = E (不戴眼镜的路人甲)$

难点:
训练集中并没有包含不同穿着的相同人物，所以不能直接添加这个约束(loss)
解决方法:
采用一个Discriminator来进行对抗训练，这个Discriminator将被训练去达到一个目标：
$P(1-y|E(x))\rightarrow1$
即想要达到Encoder的编码无法被Discriminator识别成正确的attribute(即y)，其实感觉这是一种近似，但是总感觉有一丝丝的不太合理呢

Adversarial objective:

所以对抗训练的目标为：decoder应该能够通过 $E (X)$ 和 $y$ 重建 $x$ , 并且于此同时，Discriminator需要让 $E (x)$ 与 $y$ 尽可能地不同

如果觉得我有地方讲的不好的或者有错误的欢迎给我留言，谢谢大家阅读（点个赞我可是会很开心的哦）~

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。