f-GAN学习笔记

最新推荐文章于 2024-07-06 08:47:41 发布

ujn784

最新推荐文章于 2024-07-06 08:47:41 发布

阅读量523

点赞数

分类专栏：机器学习 GAN

本文链接：https://blog.youkuaiyun.com/weixin_42365868/article/details/118515781

版权

机器学习同时被 2 个专栏收录

9 篇文章

订阅专栏

GAN

2 篇文章

订阅专栏

本文介绍了f-GAN，一种通过F-Divergence改进GAN的变种，强调了其在测量真实与生成分布差距上的优势。文章详细阐述了f-Divergence的定义、性质和在GAN优化中的作用，特别提到了如何解决Mode Collapse和Mode Dropping问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

f-GAN作为GAN的变种之一，它在真实数据的分布与生成数据的分布之间DIvergence（差距）的测量方面做出了改进，即使用F-Divergence来代替，其中F的意为函数function，它可以是KL(进而构成KL散度)、JS(进而构成JS散度)、W(进而构成Wasserstein散度)等等。其通式如下：
$D_f(P||Q)=\int_xq(x)f(\frac{p(x)}{q(x)})dx$
并满足约束条件：

f为凸函数；
f(1)=0恒成立。

f-Divergence有如下性质：

if p(x) = q(x) for all x, then $D_f(P||Q)$ =0(最小值).
$D_f(P||Q)$ 始终 $\geq$ 0.

当f取不同的函数时， $D_f(P||Q)$ 得到实例化，其中几个特例如下：

当f(x) = xlogx时，得KL Divergence = $\int_xp(x)log\frac{p(x)}{q(x)}dx$
当f(x) = -logx时，得Reverse KL Divergence = $\int_xq(x)log\frac{q(x)}{p(x)}dx$
当f(x) = $x-1)^{2}$ 时，得ChiSquare Divergence = $\int_xlog\frac{(p(x) - q(x))^{2}}{q(x)}dx$

由共轭函数推及GAN的优化目标

$f^{*}(t)=\mathop{max}\limits_{x\in dom(f)}{xt-f(x)}$ , 换成用x做未知量的函数，即
$f^{*}(x)=\mathop{max}\limits_{t\in dom(f)}{xt-f(t)}$
用 $\frac{p(x)}{q(x)}$ 代替f(x)中的x，可得
$D_f(P||Q)=\int\limits_{x}q(x)f(\frac{p(x)}{q(x)})dx$
$=\int\limits_{x}{q(x)(\mathop{max}\limits_{t\in dom(f)}{\frac{p(x)}{q(x)}t-f^{*}(t)})}dx$
再用D(x)代替t，得到：
$D_f(P||Q)\approx\mathop{max}\limits_{D}{\int\limits_{x}p(x)D(x)dx - \int\limits_{x}q(x)f^{*}(D(x))dx}$

D是一个函数，它的输入是x，输出是t. 而优化的过程即找到 $D_f(P||Q)$ ，找到的D使得上式越大，对应得到的t就越准确，越能逼近真实的 $D_f(P||Q)$ .

在上式中引入期望E，得到：
$D_f(P||Q)=\mathop{max}\limits_{D}{\int\limits_{x}E_{x\sim P}D(x)dx - \int\limits_{x}E_{x\sim Q}f^{*}(D(x))dx}$

用GAN中的真实数据分布 $P_{data}$ 代替分布P，生成数据分布 $P_{gen}$ 代替Q, 得到如下：
$D_f(P||Q)=\mathop{max}\limits_{D}{\int\limits_{x}E_{x\sim P_{data}}D(x)dx - \int\limits_{x}E_{x\sim P_{gen}}f^{*}(D(x))dx}$ ,
再在前加入一个求最小约束，即得到Generator的目标函数：
$G^{*}=\mathop {argmin}\limits_{G}D_f(P_{data}||P_G)$
$=arg\mathop {min}\limits_{G}\mathop{max}\limits_{D}{\int\limits_{x}E_{x\sim P_{data}}D(x)dx - \int\limits_{x}E_{x\sim P_{gen}}f^{*}(D(x))dx}$
$=arg\mathop {min}\limits_{G}\mathop{max}\limits_{D}V(G, D)$

我们想让判别器将来自真实分布的数据判断为正类，将生成得到的数据判断为负类，因此需要极大化上式；同时，对于生成器来说，要想让自己生成的数据尽可能骗过判别器，即判别器给生成的数据打高分（接近正类），因此需极小化上式的第二项。其中， $f^*$ 为待定函数，当f取何种divergence，后者就计算什么。