Lipschitz Constraint in Deep Learning

最新推荐文章于 2025-02-11 17:15:47 发布

转载最新推荐文章于 2025-02-11 17:15:47 发布 · 1k 阅读

文章标签：

#Lipschitz约束 #谱正则化 #谱归一化

Deep Learning 专栏收录该内容

5 篇文章

订阅专栏

本文探讨了深度学习中稳健模型的概念，重点讲解了L约束如何影响模型的稳定性和泛化能力。通过分析神经网络中的L约束，介绍了F范数、谱范数以及它们在正则化中的应用，包括L2正则化、谱正则化和谱归一化，以降低模型对输入扰动的敏感性。

1. “稳健”模型：满足L约束

（1）对于参数扰动的稳定性

如模型 $f_{w+\bigtriangleup w}(x)$ 与 $f_{w}(x)$ 是否有相近的效果。

（2）对于输入扰动的稳定性

如 $f_{w}(x+\bigtriangleup x)$ 与 $f_{w}(x)$ 是否有相近的效果。

2. L约束：

当 $\left \| x_{1}-x_{2} \right \|\rightarrow 0$ ， $\left \| f_{w}(x_1)-f_{w}(x_2) \right \|\rightarrow 0$ 。

存在某个常数C（与参数有关，与输入无关），使下式恒成立

$\left \| f_{w}(x_1)-f_{w}(x_2) \right \|\leqslant C(w)·\left \| x_1-x_2 \right \|$

其中， $C(w)$ 越小越好，意味着对输入扰动越不敏感。

3. 神经网络中的L约束：

单层全连接 $f(Wx+b)$ ， $f$ 为激活函数， $W,b$ 为参数矩阵（向量），则

$\left \| f(Wx_1+b)-f(Wx_2+b)) \right \|\leqslant C(W,b)·\left \| x_1-x_2 \right \|$

让 $x_1,x_2$ 充分接近，则

$\left \| f(Wx_1+b)-f(Wx_2+b)) \right \|\approx \left \| \frac{\partial f}{\partial x}W(x_1-x_2) \right \|\leqslant C(W,b)·\left \| x_1-x_2 \right \|$

由于现有激活函数如sigmoid,relu等满足“导数有上下界”，则 $\partial f/\partial x$ （每个元素）的绝对值都不超过某个常数，则

$\left \| W(x_1-x_2) \right \|\leqslant C\left \| x_1-x_2 \right \|$

希望C尽可能小，从而给参数带来一个正则化项 $C^2$ 。

4. 矩阵范数：

F范数（Frobenius Norm）：（又称L2范数）——deep中常用的L2正则化就是这种。

$\left \| W \right \|_{F}=\sqrt{\sum_{i,j}w_{ij}^2}$

谱范数（Spectral Norm）：（又称2范数或谱半径）

$\left \| W \right \|_2=\max_{x\neq 0}\frac{\left \| Wx \right \|}{\left \| x \right \|}=\sqrt{\lambda _{1}}$ ， $\lambda_{1}$ 为 $A^HA$ （Hermite矩阵）的最大特征值