GAN系列：李宏毅老师GAN课程P8——Photo Editing

最新推荐文章于 2022-10-24 18:05:32 发布

原创最新推荐文章于 2022-10-24 18:05:32 发布 · 653 阅读

4 ·

CC 4.0 BY-SA版权

Deep Learning 同时被 2 个专栏收录

40 篇文章

订阅专栏

Machine Learning

39 篇文章

订阅专栏

探讨如何利用GANs和Autoencoders进行图像编辑，包括逆向获取图像的生成向量，识别图像特征对应的向量维度，以及如何通过修改向量来控制图像特征表现。并介绍了在商品图片上应用这一技术，实现特定条件下生成类似图像的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

生成器的输入是一个低维向量 $z$ ，输出是一张图片。向量 $z$ 的每一维可能对应着图像的某个特征，改变 $z$ 的值就可以调整图像内容。那么：

1. 对于一张已有的生成图像，如何得到它对应的向量 $z$ ？

2. 又如何知道 $z$ 中的每个元素/维度对应着图像中哪个特征？

3. 该维度是以怎样的具体值控制着该特征的表现呢？

回答1：利用GAN+Autoencoder的结构得到 $z$ 。如下图所示：已有生成器(同时相当于解码器)，加入一个编码器将现有图像编码至 $z$ ，然后由生成器解码还原，减小重建误差，这就是一个Autoencoder的结构；生成器/编码器是固定的(因为我们的目的是找到用该生成器产生该图片所需要的编码 $z$ )，同时由于编码器作用接近判别器(判别器输出标量，编码器输出向量而已)，因此编码器可以用训练好的判别器初始化(引入了GAN的结构)，训练后编码器就可以由图像生成其对应的编码 $z$ 。

回答2：通过比较某一特征不同的两组图片的向量 $z$ ，对组内所有的 $z$ 求element-wise的均值，两组均值的结果做差求得控制该特征的 $z$ 的维度。如下图所示： $x$ 表示长发的图片， $x'$ 表示短发的图片， $En(x),En(x')$ 分别表示它们对应的编码( $z,z'$ )，对两组图片的 $z,z'$ 求均值( $\frac{1}{N_1}\sum_{x\in long }$ 或者 $\frac{1}{N_2}\sum_{x' \notin long }$ )，做差后得到 $z_{long}$ ，就表示了长发特征对应的 $z$ 中的维度(这里 $z_{long}$ 可能不是一个标量/一个维度吧，可能是多个维度的，长发特征是隐含在多个维度内共同作用的，当然最多不会超过 $z$ 的维度)。

回答3：对短发的图片 $x'$ (下面的图中标错了)，通过 $En(x')$ 得到编码向量后，加上之前的到的 $z_{long}$ 就可以得到长发图像对应的编码 $z$ ，给到同一个生成器就可得到长发图像了。进一步，通过缩放 $z_{long}$ 应该可以控制头发长短了，这其实就是一个可以依据要求从 $z$ 改变图像内容的方法。

应用：Editing Photos

假设有一组商品图片，想要在一定的条件/限制下生成与某个商品图类似的图片。如下图所示：在红色的限制下，从黑色的衣服生成样式基本不变的红色衣服图片。

首先利用训练好的生成器将所有图片映射到编码 $z$ 的空间，每一个图片就是该空间中的一个采样点，我们就在该空间内寻找想要的图像。将黑色衣服的图片输入生成器得到对应的编码 $z$ ，以较小的半径在该 $z$ 点周围采样(这个半径和具体采样的位置应该都和条件/限制有关)，就应该得到符合限制的相近的红色衣服图像。至于为什么在编码空间内操作，应该是因为低维空间内更好采样吧，更容易找到需要的点(否则空间中只有极少极少的点是我们需要的)。

具体做法：

1. 直接在编码空间内寻找 $z^{\ast }$ ，其经过生成器产生的图像和输入图像接近(L为损失函数，可以是像素差，可以是分类器网络embedding的输出)。

2. 第二个方法就是本文开头的方法：GAN+Autoencoder。

3. 上面的方法一由于使用了Gradient Descent的方法优化，可能会出现陷入局部最小值的问题(该现象受 $z$ 初始值的影响)，因此可以先利用这种GAN+Autoencoder的方法得到一个 $z$ 的初始值(用现有图片和生成器训练编码器，然后把该图片输入编码器就会得到对应的 $z$ )，然后再用方法一。此时要解的一个优化式子为：

$z^{\ast }=arg\underset{z}{min}U(G(z))+\lambda _{1}\left \| z-z_{0} \right \|^2-\lambda _{2}D(G(z))$

找到 $z$ 要令 $U(G(z))$ 最小， $U$ 是判别函数，判断 $G(z)$ 是否符合限制条件； $\lambda_1\left \| z-z_0 \right \|^2$ 要求编码 $z$ 不能偏离原图片过多，保证了内容的相似性； $\lambda_2D(G(z))$ 越大越好，保证生成的图片真实。