附论文地址:https://arxiv.org/abs/1701.07875
这一篇文章和下一篇讲提高WGAN的更有实际应用意义一些吧。转载请注明。
基础介绍
学习一个概率分布,通常我们是学习这个分布的概率密度函数,假设概率密度函数存在,且由多个参数组成即,已知该分布下点集为
,那么认为这些点既然出现了,就是概率最大的(相当于极大似然的思想)。问题就变成了求解使得
。假设真实分布为
,可以使用KL散度作为是否接近的标准。
在现实生活中我们处理的分布的支撑集都是低维的,也就是说两个分布的重叠部分测度为0,可以忽略不计,那么KL散度就没有办法衡量了。
一般的纠正办法是给模型的分布加一个有很大带宽的高斯分布,使得模型的分布覆盖所有的样本。但是,在最近的论文中提到在的时候,噪声的最佳标准方差为0.1,又图像的每一个像素值介于0到1之间,致使噪声太大,同时也降低了图像的质量,并且使用这种模型的论文中也没有用这个,所以做法不可取。
相比估计的概率密度函数,且这个密度函数还不一定存在,可以使用另一种方法:
,其中Z是一随机变量,概率密度函数为
,通过改变
使得分布
接近于真实分布
(生成器的过程)。
在本篇论文中致力于研究测量两种分布之间距离的不同的方法,这些距离最重要的不同是对概率分布收敛的影响程度。
分布收敛的定义:记距离或者散度为,分布序列
收敛当且仅当存在一分布
使得
趋向于0.
连续的定义:如果参数