深度学习【41】InfoGAN

最新推荐文章于 2024-04-21 10:42:24 发布

原创

最新推荐文章于 2024-04-21 10:42:24 发布 · 1.3k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文介绍了InfoGAN（信息增益生成网络）如何通过互信息和变分自编码器将标签信息融入GAN中，以增强生成图像的语义意义。通过在原始GAN损失函数中加入互信息，InfoGAN旨在最大化隐藏编码c与生成图像的互信息，从而提高生成内容的可解释性。在实践中，InfoGAN区分了离散和连续的隐藏编码，并在判别器中引入Q网络分支进行优化。离散编码用交叉熵损失函数，连续编码则利用对数高斯函数进行优化。

InfoGAN利用互信息和变分自编码（VAE，参考我这篇博客）将样本的label信息加入了GAN中。

首先我们列出一些基本公式：
熵： $H(X) = -\int_XP(X)logP(X)$
$H(Y|X)=-\int_XP(X)\int_YP(Y|X)logP(Y|X)$
仔细回想一下期望的计算公式，我们发现H(X) = E(log(P(X)))，这个后面会用到。

互信息： $I(X;Y) = H(X)-H(Y|X)$
KL散度： $D_{KL}(X||Y)=\int Xlog \frac{X}{Y}$

好了，我们步入正题。为了让G网络生成的图片更有语义意思，论文中在z向量的基础上加入了隐藏编码c变量。隐藏编码c表示了所要生成图片的语义，比如mnist中的0-9数字。以mnist为例，隐藏编码c，其实就是一个one-hot向量，比如要生成内容为7的图片，则c向量中的第7索引则为1，其余的位置为0。因此来自G网络的图片可写成G(z,c)。
为了确保隐藏编码c能够起到引导G网络生成的图片有语义信息。论文使用了互信息 I(c;G(z,c))

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。