InfoGAN详解与实现（采用tensorflow2(2)

最新推荐文章于 2025-06-12 22:27:36 发布

2301_82242410

最新推荐文章于 2025-06-12 22:27:36 发布

阅读量340

点赞数 3

文章标签： tensorflow 深度学习人工智能

本文链接：https://blog.youkuaiyun.com/2301_82242410/article/details/139845934

版权

鉴别器
模型构建
模型训练
效果展示

InfoGAN原理

最初的GAN能够产生有意义的输出，但是缺点是它的属性无法控制。例如，无法明确向生成器提出生成女性名人的脸，该女性名人是黑发，白皙的肤色，棕色的眼睛，微笑着。这样做的根本原因是因为使用的100-dim噪声矢量合并了生成器输出的所有显着属性。

如果能够修改原始GAN，从而将表示形式分为合并和分离可解释的潜在编码向量，则可以告诉生成器要合成什么。

合并和分离编码可以表示如下：

合并编码与分离编码对比具有分离表示的GAN也可以以与普通GAN相同的方式进行优化。生成器的输出可以表示为：

G ( z , c ) = G ( z ) G(z,c)=G(z) G(z,c)=G(z)

编码 z = ( z , c ) z = (z,c) z=(z,c)包含两个元素, z z z表示合并表示， c = c 1 , c 2 , . . . , c L c=c_1,c_2,…,c_L c=c1,c2,…,cL表示分离的编码表示。

为了强制编码的解耦，InfoGAN提出了一种针对原始损失函数的正则化函数，该函数将潜在编码 c c c和 G ( z , c ) G(z,c) G(z,c)之间的互信息最大化：

I ( c ; G ( z , c ) ) = I G ( c ; z ) I(c;G(z,c))=IG(c;z) I(c;G(z,c))=IG(c;z)

正则化器强制生成器考虑潜在编码。在信息论领域，潜在编码 c c c和 G ( z , c ) G(z,c) G(z,c)之间的互信息定义为：

最大化互信息意味着在生成得到生成的输出时将 H ( c ∣ G ( z , c ) ) H(c|G(z,c)) H(c∣G(z,c))最小化或减小潜在编码中的不确定性。

但是由于估计 H ( c ∣ G ( z , c ) ) H(c|G(z,c)) H(c∣G(z,c))需要后验分布 p ( c ∣ G ( z , c ) ) = p ( c ∣ x ) p(c|G(z,c))=p(c|x) p(c∣G(z,c))=p(c∣x)，因此难以估算 H ( c ∣ G ( z , c ) ) H(c|G(z,c)) H(c∣G(z,c))。

解决方法是通过使用辅助分布 Q ( c ∣ x ) Q(c|x) Q(c∣x)估计后验概率来估计互信息的下限，估计相互信息的下限为：

I ( c ; G ( z , c ) ) ≥ L I ( G , Q ) = E c ∼ p ( c ) , x ∼ G ( z , c ) [ l o g Q ( c ∣ x ) ] + H ( c ) I(c;G(z,c)) \ge L_I(G,Q)=E_{c \sim p©,x \sim G(z,c)}[logQ(c|x)]+H© I(c;G(z,c))≥LI(G,Q)=Ec∼p©,x∼G(z,c)[logQ(c∣x)]+H©

在InfoGAN中，假设 H ( c ) H© H©为常数。因此，使互信息最大化是使期望最大化的问题。生成器必须确信已生成具有特定属性的输出。此期望的最大值为零。因此，互信息的下限的最大值为 H ( c ) H© H©。在InfoGAN中，离散潜在编码 Q ( c ∣ x ) Q(c|x) Q(c∣x)的可以用softmax表示。期望是tf.keras中的负categorical_crossentropy损失。

对于一维连续编码，期望是 c c c和 x x x上的二重积分，这是由于期望样本同时来自分离编码分布和生成器分布。估计期望值的一种方法是通过假设样本是连续数据的良好度量。因此，损失估计为 c l o g Q ( c ∣ x ) clogQ(c|x) clogQ(c∣x)。

为了完成InfoGAN的网络，应该有一个 l o g Q ( c ∣ x ) logQ(c|x) logQ(c∣x)的实现。为简单起见，网络Q是附加到鉴别器的辅助网络。