【GAN优化】详解SNGAN(频谱归一化GAN)

部署运行你感兴趣的模型镜像

今天将和大家一起学习具有很高知名度的SNGAN。之前提出的WGAN虽然性能优越,但是留下一个难以解决的1-Lipschitz问题,SNGAN便是解决该问题的一个优秀方案。我们将先花大量精力介绍矩阵的最大特征值、奇异值,然后给出一个简单例子来说明如何施加1-Lipschitz限制,最后一部分讲述SNGAN。

作者&编辑 | 小米粥

在GAN中,Wasserstein距离比f散度拥有更好的数学性质,它处处连续,几乎处处可导且导数不为0,所以我们更多的使用Wasserstein距离。在上一期的结尾,我们得到critic(判别器)的目标函数为:

640?wx_fmt=jpeg

本篇所讲的SNGAN便是一种“严格”地解决了判别器1-Lipshcitz约束的方法。

1 最大特征值(奇异值)

我们从矩阵的特征值、奇异值开始说起。在线性代数中,Ax=b表示对向量x做矩阵A对应的线性变换,可以得到变换后的向量b。如果x为矩阵A对应的特征向量,则有:

640?wx_fmt=jpeg

即对特征向量x做矩阵A对应的线性变换的效果是:向量方向不变,仅长度伸缩λ 倍!比如,对

640?wx_fmt=jpeg

两个特征值、特征向量分别为:

640?wx_fmt=jpeg

线性变换作用在特征向量的效果如下:

640?wx_fmt=jpeg

对于一般向量x,对其线性变换的中间运算过程可以分解为三步。例如对于计算Ax,其中x=[0,1],先将x分解到两个特征向量上:

640?wx_fmt=jpeg

640?wx_fmt=jpeg

然后在两个特征向量方向上分别进行伸缩变换,有:

640?wx_fmt=jpeg

640?wx_fmt=jpeg

最后再进行简单的向量合成,可有:

640?wx_fmt=jpeg

640?wx_fmt=jpeg

一般的,对于非奇异n阶方阵,有n个特征向量和与之对应的特征值,故n阶方阵A对应的线性变换操作其实可以分解成三步:将向量x先分解到n个特征向量对应的方向上(本质是求解x在以特征向量组成的基上的表示),分别进行伸缩变换(在特征向量组成的基上进行伸缩变换),最后进行向量合成(本质是求解得到的新向量在标准基上的表示)。这其实就是在描述熟悉的矩阵特征值分解:

640?wx_fmt=jpeg

特征值是对应于方阵的情况,将其推广至一般矩阵,便可引出奇异值。奇异值分解形式为:

640?wx_fmt=jpeg

简单说,特征值分解其实是对线性变换中旋转、缩放两种效应的归并,奇异值分解正是对线性变换的旋转、缩放和投影三种效应的一个析构(当V的维度大于U的维度时存在投影效应)。

说了这么多,其实是为了直观地解释一个问题,对于任意单位向量x,Ax的最大值(这里使用向量的2范数度量值的大小)是多少?显然,x为特征向量v2时其值最大,因为这时的x全部“投影”到伸缩系数最大的特征向量上,而其他单位向量多多少少会在v1方向上分解出一部分,在v1方向上只有2倍的伸缩,不如在v2方向上4倍伸缩的值来的更大。这样,我们可以得到一个非常重要的式子:

640?wx_fmt=jpeg

其中σ (A)表示A的最大特征值(奇异值),也称为A的谱范数。

2 Lipshcitz限制

所谓Lipshcitz限制,在最简单的一元函数中的形式即:

640?wx_fmt=jpeg

或者也可以写成:

640?wx_fmt=jpeg

直观上看,它要求f(x)任意两点之间连线的“斜率”绝对值小于Lipshcitz常数k。在WGAN中要求k=1,1-Lipshcitz限制要求保证了输入的微小变化不会导致输出产生较大变化。我们常见的函数,比如分段线性函数|x|,连续函数sin(x)都显而易见的满足该限制:

640?wx_fmt=jpeg

我们以一个最简单的例子来展示一下,如何使用谱范数施加1-Lipshcitz限制。考虑f(x)=Wx,其中

640?wx_fmt=jpeg

显然,f(x)=Wx不满足1-Lipshcitz限制,利用第一部分的结论,考虑到

640?wx_fmt=jpeg

那么若将W整体缩小4倍,

640?wx_fmt=jpeg

即可以得到:

640?wx_fmt=jpeg

可以看出,虽然线性函数f(x)=Wx不满足1-Lipshcitz限制,但是可使用谱范数将W的”缩放大小“限定为小于等于1,(有点类似于向量的归一化操作)这样处理后的f*(x)可以满足1-Lipshcitz限制。接下来,我们将对这条思路进行补充、推广,最后得到SNGAN将是显而易见的事情了。

3 SNGAN

通常在神经网络中的每一层,先进行输入乘权重的线性运算,再将其送入激活函数,由于通常选用ReLU作为激活函数,ReLu激活函数可以用对角方阵D表示,如果Wx的第i维大于0,则D的第i个对角元素为1,否则为0,需要注意D的具体形式与W,x均有关系,但是D的最大奇异值必然是1。

因此,一般而言,即使神经网络的输出是非线性的,但是在x的一个足够小的邻域内,它一个表现为线性函数Wx,W的具体形式与x有关。真实的判别器f(x)的函数图像在比较小的尺度上来看应该是类似这种形式的分段函数:

640?wx_fmt=jpeg

考虑到对于任意给定的x,均有:

640?wx_fmt=jpeg

整体标记判别器各层的权值、偏置项:

640?wx_fmt=jpeg

那么可以得到:

640?wx_fmt=jpeg

根据:

640?wx_fmt=jpeg

可得到:

640?wx_fmt=jpeg

不必像第二部分所描述办法整体求解W的谱范数,充分利用上述不等式,我们只需要计算每层的权值矩阵的最大奇异值,即可完成1-Lipshcitz限制。

640?wx_fmt=jpeg

综上,有结论:对于任意x

640?wx_fmt=jpeg

为了严格起见,需要说明,f(x)在x的任意邻域内都满足1-Lipshcitz限制,则f(x)在定义域上满足1-Lipshcitz限制。

其实这里有一个遗留的小问题,如何快速求解超大矩阵A的最大奇异值。在原论文中使用了一种幂方法(power method),随机给两个初始变量,然后令:

640?wx_fmt=jpeg

则经过数次迭代,便有

640?wx_fmt=jpeg

我们用求最大特征值的例子来辅助理解一下,A对向量x的线性变换的实质是对x在不同的特征向量方向进行伸缩,由于在不同的特征向量方向进行伸缩的幅度不同,造成的结果是:不断对x做A对应的线性变换,则x的方向不断靠近伸缩幅度最大的特征向量的方向,如下图

640?wx_fmt=jpeg

则经过足够次数的迭代,得到的新的向量方向与伸缩幅度最大的特征向量的方向重合,故每次迭代结果只差一个常数,即最大特征值。

[1] Yoshida, Yuichi , and T. Miyato . "Spectral Norm Regularization for Improving the Generalizability of Deep Learning." (2017).

[2] Miyato, Takeru , et al. "Spectral Normalization for Generative Adversarial Networks." (2018).

[3]Wasserstein GAN and the Kantorovich-Rubinstein Duality.  https://vincentherrmann.github.io/blog/wasserstein/

总结

这篇文章带领大家一起学习了SNGAN,学习了特征值和奇异值相关问题,学习如何使用谱范数解决1-Lipschitz限制,并推导了SNGAN,最后给出了一个快速求解矩阵最大奇异值的方法。下一期的内容将比较“数学”一点,介绍一个个人非常喜欢的统一理论,它将WGAN和诸多GAN纳入一个框架。

下期预告:IPM与xGAN

GAN群

640?wx_fmt=jpeg

有三AI建立了一个GAN群,便于有志者相互交流。感兴趣的同学也可以微信搜索xiaozhouguo94,备注"加入有三-GAN群"。

知识星球推荐

640?wx_fmt=jpeg

有三AI知识星球由言有三维护,内设AI知识汇总,AI书籍,网络结构,看图猜技术,数据集,项目开发,Github推荐,AI1000问八大学习板块。


有三AI知识星球官宣,BAT等大咖等你来撩

【知识星球】千奇百怪的网络结构板块更新到哪里了?

转载文章请后台联系

侵权必究

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

往期精选

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

频谱归一化是一种用于改善生成对抗网络(GAN)性能的技术。它通过减少权重矩阵的分层频谱范数来提高网络的Lipschitzness,从而简化训练并提高鲁棒性。频谱归一化的一种常见方法是使用谱归一化(spectral normalization)。 谱归一化通过对权重矩阵的每一行进行归一化来实现。具体而言,它通过计算权重矩阵的奇异值分解(SVD),并将奇异值除以其最大值来归一化每一行的权重。这样可以确保权重矩阵的每一行都具有相同的范数,从而提高网络的稳定性和收敛性。 下面是一个使用谱归一化GAN网络的示例代码: ```python import torch import torch.nn as nn # 定义生成器网络 class Generator(nn.Module): def __init__(self): super(Generator, self).__init__() self.fc = nn.Linear(100, 256) self.relu = nn.ReLU() self.fc2 = nn.Linear(256, 784) self.tanh = nn.Tanh() def forward(self, x): x = self.fc(x) x = self.relu(x) x = self.fc2(x) x = self.tanh(x) return x # 定义判别器网络 class Discriminator(nn.Module): def __init__(self): super(Discriminator, self).__init__() self.fc = nn.Linear(784, 256) self.relu = nn.ReLU() self.fc2 = nn.Linear(256, 1) self.sigmoid = nn.Sigmoid() def forward(self, x): x = self.fc(x) x = self.relu(x) x = self.fc2(x) x = self.sigmoid(x) return x # 对生成器和判别器的权重进行谱归一化 generator = Generator() discriminator = Discriminator() generator = nn.utils.spectral_norm(generator) discriminator = nn.utils.spectral_norm(discriminator) # 训练GAN网络... ``` 这是一个简单的示例,展示了如何在生成器和判别器网络中使用谱归一化。通过对权重进行谱归一化,可以提高GAN网络的稳定性和生成样本的质量。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

言有三

三人行必有AI

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值