谱归一化（Spectral Normalization）的理解

最新推荐文章于 2025-10-14 15:53:23 发布

原创

最新推荐文章于 2025-10-14 15:53:23 发布 · 4w 阅读

216 ·

CC 4.0 BY-SA版权

文章标签：

#Gan #Lipschitz #谱范数

《Spectral Normalization for Generative Adversarial Networks》【1】是Takeru Miyato在2018年2月发表的一篇将谱理论应用于Gan上的文章，在2017年，本文的第3作者Yuichi Yoshida就发表了一篇著名的谱范数正则（Spectral Norm Regularization）的文章【2】，如有兴趣也可参看我的上一篇Blog：https://blog.youkuaiyun.com/StreamRock/article/details/83539937
【1】、【2】两篇文章从不同的角度讨论了：参数矩阵的谱范数对多层神经网络的泛化的影响，并分别给出了两个不同的应对方法：前者对Discriminator矩阵参数进行归一化处理，后者可以加入任意多层网络（在更新梯度时加入了谱范数正则项）。本文将在【1】的阅读理解基础上，探讨其实现的方法。

一、Gan的Lipschitz稳定性约束

Gan好是好，但训练难，主要体现在：1）模式坍塌，即最后生成的对象就只有少数几个模式；2）不收敛，在训练过程中，Discriminator很早就进入了理想状态，总能perfectly分辨出真假，因此无法给Generator提供梯度信息，而导致训练无法进行下去。Martin Arjovsky在《Towards principled methods for training generative adversarial networks》【4】、《Wasserstein GAN》【5】文章中，对Gan难训练的原因做了详细的讨论，并给出一种新的Loss定义，即Wasserstein Distance：
$W(P_r,P_g)=\inf_{\gamma\in\prod(P_r,P_g)}E_{(x,y)\sim \gamma}[\Vert x-y\Vert]\qquad(1)$
实际Wasserstein Distance的计算是通过它的变形来完成的：
$W(P_r,P_g)=\sup_{\Vert f \Vert_{Lip}}E_{x∼P_r}[f(x)]−E_{x∼P_g}[f(x)]\qquad(2)$
(2)式只要求 $f(\cdot)$ 满足Lipschitz约束即可，在Gan中，判别器的映射函数可充当(2)式中的 $f(\cdot)$ ，于是加入此一约束的Gan网络有了一个新的名称：WGan。
引入Wasserstein Distance，将传统Gan转变为WGan是有许多好处的，因为Wasserstein Distance具有如下优点：
1、 $W(P_r,P_g)\ge0$ ，等号在 $P_r,P_g$ 分布完全重合时成立；
2、 $W(P_r,P_g)$ 是对称的，较常用的 KL Divergence 的不对称，有优势；
3、即使两个分布 $P_r,P_g$ 的支撑不相交，亦可以作为衡量差异的距离，并在满足一定条件下可微，具备了后向传输的能力。
当 WGan 的 Discriminator 采用了这种距离来训练后，可以消除传统Gan训练时出现的收敛问题，使训练过程变得稳定。另外，要实施此策略也很简单，只需在传统Gan的Discriminator的参数矩阵上加上Lipschitz约束即可，其它的几乎不用改。

Lipschitz约束简单而言就是：要求在整个 $f(\cdot)$ 的定义域内有
$\frac{\Vert f(x)-f(x') \Vert_2}{\Vert x-x' \Vert_2} \le M \qquad(3)$

最低0.47元/天解锁文章

11 条评论

xxxxyyyqq 2023.05.25
博主，谱归一化影响生成结果，是怎么回事啊

头发保住 2022.11.11
你好，判别器的映射函数是判别器的损失函数吗？

lllllliiiiiijjjjjjjj 2022.01.19
最后一个公式有点小瑕疵，应该表示成奇异值的平方吧，然后v=W.Tu然后除以最大奇异值就合适了

kkcup2017 2022.01.04
这个谱归一化跟Batch Normalization有区别吗？

徒弟ing 2021.12.26
你好，请问谱范数定义中的h代表什么？

nqct1 2021.12.25
想问一下谱归一化一般需要偏置吗？

qq_42274102 2020.12.01
博主，您好。我想请问应用谱归一化时，是否需要将谱归一化应用到每一层的卷积。是因为有些卷积具有特殊的功能，比如有些卷积层可以获得空间或通道注意力（senet），此时还能否将普归一化应用起来，是否会改变特殊卷积层的性能？？？或者能否只在个别卷积层使用谱归一化？期待您的答复。感谢！

纯洁的小火车 2020.07.01
其实我一直有个问题，卷积层的谱范数我认为还是要转化为稀疏矩阵去求的，毕竟卷积操作不直接等价于矩阵乘法。不过在用幂迭代法时，可以借助卷积和反卷积操作，直接计算，不需要真正求出稀疏矩阵。但我见到的大多SN实现，对卷积层都是直接将权值矩阵拉成1维求谱范数的，这就让我很困惑也说不通自己了，而且，就算是权值矩阵，不同的reshape 谱范数值本身就是不一致的。这点在MATLAB上计算显现的特别明显，而TensorFlow似乎为了寻求便利，全部拉成1维向量求谱范数。