点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
从理论上来说,建立在Wasserstein距离的Kantorovich-Rubinstein (KR)二元性基础上的Wasserstein GANs (WGANs)模型是最完善的GAN模型之一。但在实践过程中,我们发现,该模型并不总是优于其他GANs模型的变体。这主要是由于KR二元性所要求的Lipschitz条件的实现不完善。针对这一问题,目前不少研究针对Lipschitz约束进行了不同的实现,但这在实践中仍然难以完美的满足该限制条件。相比之下,一篇来自AAAI2021的题为《Towards Generalized Implementation of Wasserstein Distance in GANs》的研究提出了一种新颖的想法:强Lipschitz约束对于优化可能是不必要的,有没有可能通过放松Lipschitz约束对现有方法进行改进。在理论上,该研究首先证明了Wasserstein距离的一般二元形式,称为Sobolev二元性,它放松了Lipschitz约束,但仍然保持了Wasserstein距离的有利梯度属性。此外,该研究还表明,KR二元性实际上是Sobolev二元性的一种特殊情况。基于放宽的二元性,文章提出了一种广义的WGAN训练方案,命名为Sobolev Wasserstein GAN (SWGAN),并通过大量实验证明了SWGAN优于现存方法。
本期AI TIME PhD直播间,我们有幸邀请到了该论文的作者,来自蒙特利尔大学算法研究所的博士生徐民凯,为大家分享这项研究工作!
徐民凯:蒙特利尔大学算法研究所(Mila)在读博士生,导师为Jian Tang教授。研究兴趣主要在于深层生成模型及其在离散数据上的应用,重点关注图形(药物研发)和文本(自然语言生成)。本科毕业于上海交通大学,师从Weinan Zhang教授和Yong Yu教授。曾在ByteDance(TikTok)AI实验室实习,并与Lei Li博士和Mingxuan Wang博士合作。其研究成果在ICML等多个顶级会议上发表,并担任ICML和AAAI等会议的程序委员会委员。
一、背景
1.1 生成对抗网络(GAN)的核心
生成对抗网络的本质是训练一个生成模型。图1是生成对抗网络的原理概念图。从图中我们可以看到两个神经网络,分别是Generator(生成器)和Discriminator(判别器)。绿色背景的生成器以随机噪声作为输入,输出一个图片。红色背景的判别器既可以输入真实世界的图片,也可以输入生成器生成的图片。判别器的作用是通过分类尽量分辨出输入的图片是来自真实世界的还是由生成器生成的。
GAN的对抗点在于,判别器需要尽量通过分类来分辨出哪些图片是真实的,哪些图片是由生成器生成的,而生成器需要尽量骗过判别器,以达到以假乱真的效果。
图1. GANs原理概念图
1.2 什么是生成模型?
图2展示了生成模型的工作原理。在GANs中,生成器首先从先验分布P(Z)中进行采样,(高斯分布或均匀分布等)。然后输入到生成器的神经网络中