谱范数正则（Spectral Norm Regularization）的理解

最新推荐文章于 2025-06-05 12:21:57 发布

田神

最新推荐文章于 2025-06-05 12:21:57 发布

阅读量2.2w

点赞数 27

CC 4.0 BY-SA版权

分类专栏：机器学习与神经网络文章标签：谱分析

本文链接：https://blog.youkuaiyun.com/StreamRock/article/details/83539937

本文深入探讨了谱范数正则化（Spectral Norm Regularization，SNR）在深度学习中的应用，特别是在大规模GAN训练中的稳定性提升作用。SNR通过约束神经网络参数矩阵的谱范数，增强网络对输入扰动的鲁棒性，从而改善泛化性能。文章介绍了扰动指数的概念和谱范数的计算方法，以及如何将其作为正则项加入损失函数，以限制网络的整体扰动影响。此外，还讨论了使用幂迭代法近似最大奇异值的技巧，并提供了谱正则化的实现算法总结。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

近来，DeepMind的一篇论文《LARGE SCALE GAN TRAINING FOR
HIGH FIDELITY NATURAL IMAGE SYNTHESIS》（arXiv:1809.11096v1）[1]（通过大规模Gan训练，得到高精度的合成自然图像）引起了广泛的关注。其中，为保证其大批次（batch够大）Gan训练的稳定性，[1]引入了谱范数正则技术（Spectral Norm Regularization）。该技术从每层神经网络的参数矩阵的谱范数角度，引入正则约束，使神经网络对输入扰动具有较好的非敏感性，从而使训练过程更稳定，更容易收敛。
谱范数正则（Spectral Norm Regularization，简称为SNR）最早来自于2017年5月日本国立信息研究所Yoshida的一篇论文[2]，他们后续又于2018年2月再再arXiv发了一篇SNR用于Gan的论文[3]，以阐明SNR的有效性。因为当SGD（统计梯度下降）的批次（Batch size）一大的时候，其泛化性能却会降低，SNR能有效地解决这一问题。

SNR的讨论是从网络的泛化（（Generalizability））开始的。对于Deep Learning而言，泛化是一个重要的性能指标，直觉上它与扰动（Perturbation）的影响有关。我们可以这样理解：局部最小点附近如果是平坦（flatness）的话，那么其泛化的性能将较好，反之，若是不平坦（sharpness）的话，稍微一点变动，将产生较大变化，则其泛化性能就不好。因此，我们可以从网络对抗扰动的性能入手来提升网络的泛化能力。

一、扰动的表示

对应多层神经网络而言，扰动（Perturbation）的来源主要有两个：1）参数的扰动；2）输入的扰动。[2]是从输入扰动的角度来进行讨论的。假设一个前馈网络的第 $l$ 层有如下关系：
$\mathbf x^l=f^l(W^l\mathbf x^{l-1}+\mathbf b^l)\qquad(1)$
(1)中， $xl\mathbf x^l$ 表示第 $l$ 层的输出， $xl−1\mathbf x^{l-1}$ 表示第 $l$ 层的输入， $Wl,blW^l,\mathbf b^l$ 分别表示该层神经网络的参数矩阵和偏置向量， $fl(⋅)f^l(\cdot)$ 表示网络的非线性激活函数， $l=1,⋯ ,Ll=1,\cdots,L$ 即整个网络有L层。于是，整个网络的参数集合可用 $Wl,bl}l=1L\Theta = \{ W^l,\mathbf b^l\}^L_{l=1}$ 表示。
对于给定训练集： $(xi,yi)i=1K(\mathbf x_i, \mathbf y_i)^K_{i=1}$ ，其中 $xi∈Rn0,yi∈RnL\mathbf x_i \in \mathbb R^{n_0},\mathbf y_i \in \mathbb R^{n_L}$ ，则Loss 函数可以表示为：
$Loss=\frac{1}{K}\sum^K_{i=1}L(f_{\Theta}(\mathbf x_i),\mathbf y_i)\qquad(2)$
其中， $L(⋅)L(\cdot)$ 表示我们常用的优化目标函数，如：交叉熵用于分类（Classification）任务、最小平方差 $l_2$ 用于回归(Regression)任务。
所谓输入扰动，就指：输入有一个很小的变化，引起的输出变化：
$\mathbf x\rightarrow \mathbf x+\mathbf \xi \\ f(\mathbf x) \rightarrow f(\mathbf x +\mathbf \xi )\\ \text{So we define:}\\ P=\frac{\Vert f(\mathbf x +\mathbf \xi )-f(\mathbf x)\Vert}{\Vert \mathbf \xi \Vert} \qquad(3)$
我们要考察输入扰动的影响，可通过扰动指数—— $P$ ，定量分析。对于多层神经网络，其非线性的引入是由于非线性激活函数。对于常见的非线性函数，如：ReLU、maxout、maxpooling等，我们可以将它看作是分段线性函数，因此，对于 $x\mathbf x$ 的邻域来说，可看成是线性函数，如：ReLu。输入扰动发生在 $x\mathbf x$ 的邻域中，对于单层神经网络（未经激活函数）有以下关系：
$\frac{\Vert f(\mathbf x +\mathbf \xi )-f(\mathbf x)\Vert}{\Vert \mathbf \xi \Vert} = \frac{\Vert W_{\Theta,x}(\mathbf x +\mathbf \xi )+\mathbf b_{\Theta,x}-W_{\Theta,x}\mathbf x -\mathbf b_{\Theta,x}\Vert}{\Vert \mathbf \xi \Vert}\\ =\frac{\Vert W_{\Theta,x} \xi \Vert}{\Vert \mathbf \xi \Vert} \le \sigma(W_{\Theta,x}) \qquad(4)$