深度学习总结(九)——正则化

最新推荐文章于 2025-10-02 21:11:10 发布

原创最新推荐文章于 2025-10-02 21:11:10 发布 · 1.3k 阅读

3 ·

CC 4.0 BY-SA版权

深度学习专栏收录该内容

11 篇文章

订阅专栏

这里写图片描述

1. 正则化简介

以逻辑斯蒂回归为例，介绍正则化。
原来的成本函数(cost function)：

min w, b J (w, b) = min w, b 1 m \sum i = 1 m L (y^(i), y (i))

$\min_{w,b}J(w,b)=\min_{w,b}\frac{1}{m}\sum^m_{i=1}\mathcal L(\hat y^{(i)},y^{(i)})$
其中：

w∈Rnx,b∈R $w∈\Bbb R^{n_x}, b∈\Bbb R$
加入正则化项得：

J (w, b) = 1 m \sum i = 1 m L (y^(i), y (i)) + λ 2 m | | w | | 22

$J(w,b)=\frac{1}{m}\sum^m_{i=1}\mathcal L(\hat y^{(i)},y^{(i)})+\frac {\lambda}{2m}||w||^2_2$
其中：

| | w | | 22 = \sum j = 1 n x w 2 j = w T w

$||w||^2_2=\sum^{n_x}_{j=1}w^2_j=w^Tw$
上式中的正则化是L2正则化。
正则化是一种非常实用的减少方差的方法，正则化时会出现偏差方差权衡问题，偏差可能略有增加。如果网络足够大，增幅通常不会太高。人们通常会用交叉验证集的方式来选择正则化参数：λ。

注意：损失函数指的是单个样本的误差，成本函数指的是所有训练样本的误差。

2. 为什么正则化项没有b

因为w往往是一个高维向量，包含了绝大多数参数，已经可以表达高方差问题。而b只是单个数字，加了也没有太大影响。

3. L1正则化使得模型变得稀疏，是否有利于模型压缩

实际上L1正则化虽然使得模型变得稀疏，但是却没有降低太多存储内存(因为参数的个数没有变，只是值变为了0)。所以L1正则化的主要目的不是为了模型压缩。

4. 为什么L2正则化被称为weight decay

首先我们来看成本函数，其包含w[1]，b[1]到w[L]，b[L]所有参数，L是神经网络所含的层数。其定义如下：

J (w [1], b [1], . . ., w [L], b [L]) = 1 m \sum i = 1 m L (y^(i), y (i)) + λ 2 m \sum l = 1 L | | w [l] | | 2

$J(w^{[1]},b^{[1]},...,w^{[L]},b^{[L]})=\frac{1}{m}\sum^m_{i=1}\mathcal L(\hat y^{(i)},y^{(i)})+\frac {\lambda}{2m}\sum^L_{l=1}||w^{[l]}||^2$
其中：

| | w [l] | | 2 = \sum i = 1 n [l - 1] \sum j = 1 n [l] (w [l] i j) 2

$||w^{[l]}||^2=\sum_{i=1}^{n^{[l-1]}}\sum_{j=1}^{n^{[l]}}(w^{[l]}_{ij})^2$

w : (n [l - 1], n [l])

$w:(n^{[l-1]},n^{[l]})$
n[l]表示第l层单元的数量，这个式子求的是w[l]矩阵中所有元素的平方和。
在加上正则化前，w[l]用反向传播算法更新参数的公式为：

w[l]:=w[l]−αdw[l]=w[l]−α∂J∂w[l] $w^{[l]}:=w^{[l]}-\alpha dw^{[l]}=w^{[l]}-\alpha \frac{\partial J}{\partial w^{[l]}}$
但是加上正则化之后，公式变为：

w [l] : = w [l] - α d w [l] = w [l] - α (\partial J \partial w [ l ] + λ m w [l]) = (1 - α λ m) w [l] - α d w [l]

$\begin{equation} \begin{aligned} w^{[l]}:&=w^{[l]}-\alpha dw^{[l]}\\ &=w^{[l]}-\alpha (\frac{\partial J}{\partial w^{[l]}}+\frac {\lambda}{m}w^{[l]})\\ &=(1-\frac {\alpha\lambda}{m})w^{[l]}-\alpha dw^{[l]} \end{aligned} \end{equation}$
因为

1−αλm $1-\frac {\alpha\lambda}{m}$ 小于1，所以L2正则化相当于让权重矩阵变小，即权重衰减(weight decay)。

5. 为什么说L1正则化是假设参数满足拉普拉斯分布、而L2正则化是满足高斯分布

首先我们对参数w引入协方差为α、均值为0的高斯先验。则根据极大后验概率，求得成本函数为：

L (w) = p (y \to | X; w) p (w) = \prod i = 1 m p (y (i) | x (i); θ) p (w) = \prod i = 1 m 1 2 π - - \sqrt δ e x p (- ( y ( i ) - w T x ( i ) ) 2 2 δ 2) \prod j = 1 n 1 2 π - - \sqrt α e x p (- ( w ( j ) ) 2 2 α) = \prod i = 1 m 1 2 π - - \sqrt δ e x p (- ( y ( i ) - w T x ( i ) ) 2 2 δ 2) 1 2 π - - \sqrt α e x p (- w T w 2 α)

$\begin{equation} \begin{aligned} L(w)&=p(\overrightarrow y|X;w)p(w)\\ &=\prod^m_{i=1}p(y^{(i)}|x^{(i)};\theta)p(w)\\ &=\prod^m_{i=1}\frac {1}{\sqrt{2\pi}\delta}exp(-\frac{(y^{(i)}-w^Tx^{(i)})^2}{2\delta^2})\prod^n_{j=1}\frac {1}{\sqrt{2\pi}\alpha}exp(-\frac{(w^{(j)})^2}{2\alpha})\\ &=\prod^m_{i=1}\frac {1}{\sqrt{2\pi}\delta}exp(-\frac{(y^{(i)}-w^Tx^{(i)})^2}{2\delta^2})\frac {1}{\sqrt{2\pi}\alpha}exp(-\frac{w^Tw}{2\alpha}) \end{aligned} \end{equation}$
取对数：

l (w) = log L (w) = m log 1 2 π - - \sqrt δ + n log 1 2 π - - \sqrt α - 1 δ 2 \cdot 1 2 \sum i = 1 m (y (i) - w T x (i)) 2 - 1 α \cdot 1 2 w T w \Rightarrow w M A P G u a s s i a n = arg min w (1 δ 2 \cdot 1 2 \sum i = 1 m (y (i) - w T x (i)) 2 + 1 α \cdot 1 2 w T w)

$\begin{equation} \begin{aligned} l(w)&=\log L(w)\\ &=m \log\frac{1}{\sqrt{2\pi}\delta}+n\log\frac{1}{\sqrt{2\pi}\alpha}-\frac{1}{\delta^2}\cdot\frac{1}{2}\sum^m_{i=1}(y^{(i)}-w^Tx^{(i)})^2-\frac{1}{\alpha}\cdot\frac{1}{2}w^Tw\\ &\Rightarrow w_{MAP_{Guassian}}=\arg \min_w(\frac{1}{\delta^2}\cdot\frac{1}{2}\sum^m_{i=1}(y^{(i)}-w^Tx^{(i)})^2+\frac{1}{\alpha}\cdot\frac{1}{2}w^Tw) \end{aligned} \end{equation}$
等价于：