机器学习：正则化

最新推荐文章于 2025-06-24 16:40:15 发布

原创最新推荐文章于 2025-06-24 16:40:15 发布 · 811 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #线性回归 #回归

机器学习专栏收录该内容

13 篇文章

订阅专栏

正则化

引入正则化的目的是为了解决过拟合问题。
在这里插入图片描述
左边的图中蓝色的线是目标函数，随机产生五个带噪声的点。我们理想的拟合曲线为红色的线，虽然有些许误差，但是整体拟合情况和目标函数接近。但是，事先不知道需要用二次曲线来拟合这些点。如果使用了更高次方的假设函数，可能就会出现右图中的情况。虽然在训练集上能很好的拟合这五个点，但是他与目标函数相差很大。在未来的预测过程中，犯错误的可能性也会很大。这就是过拟合。

我们称 $H_C$ 为C次多项式。如 $H_{10}$ 为所有10次多项式的集合。有如下关系：
在这里插入图片描述
高次多项式一定包含了低次多项式，看一个很简单的说名：十次多项式的集合中，只要让次数高于3的系数全部为0，该十次多项式就退化为一个二次多项式。

还是看最开始的列子。如果我们用十次多项式去拟合由二次多项式产生的五个点，如果让大于三次的项权重都为0，那就不会发生过拟合问题。
在这里插入图片描述
但是，新的问题又来了，面对一个未知的数据集。我怎么知道最初需要用几次多项式来拟合最好，很显然不可能做到未卜先知。那可以换一种思路来想这个问题。为什么会出现过拟合呢？因为多项式的次数太高了，也就是高次多项式的权重可能会很大。那么是不是可以通过限制权重的增加来解决过拟合问题呢？显然应该是可以的。
在这里插入图片描述
限制多项式的所有权重之和的平方，不能超过某个值 $C$ 。引入一个新的表示方式
$H (c)$ 用来表示约束条件： $w^Tw<C$ 。

正则化权重下降

前面推导的公式可以进行转化为下面的形式：
在这里插入图片描述
将 $E_{in}$ 写成矩阵的形式，就像解线性回归问题那样。 $w^Tw<c$ 说明w在以
以根号c为半径的圆上面。接下来的问题就是如何求解这个最优化问题

上图中，蓝色的圆代表有限制的 $E_{in}(w)$ ，红色的圆代表限制条件 $w^Tw=c$

在没有限制条件的情况下，权重向量 $w$ 最终会取得最小值 $w_{lin}$ ，也就是谷底的位置。加上限制条件之后，权重向量被限制在红色的圆上。w到原点的距离不能超过圆的半径；这种情况下 $w$ 不能取得最小值，最优解位于红色的圆上，并且只能沿着切线方向变化（绿色的），红色的线和绿色的线垂直，是红色圆的法向量，也就是 $w$ 的方向。 $w$ 不能沿着该方向变化。只要 $−ΔEin(w)-\Delta{E_{in}(w)}$ 不和绿色的线垂直，则 $−ΔEin(w)-\Delta{E_{in}(w)}$ 一定有绿色线上的分量，即 $w$ 还会继续变化。当 $−ΔEin(w)-\Delta{E_{in}(w)}$ 与绿色的垂直与红色的线平行时，此时的 $w$ 为最优解。由此得到最优解满足的条件：
在这里插入图片描述
公式中 $λ\lambda$ 为拉格朗日乘子，是用来求解有条件约束最优化问题的常用方法， $2N\frac{2}{N}$ 为常数。称这个公式为平行公式，此时的目标函数变为求解满足上式 $w_{reg}$ ,线性回归的误差形式为：

由该式计算梯度，并代入上文中的公式可得：

在这里插入图片描述
最后得到的计算公式中。 $Z^TZ$ 半正定，只要保证 $λ>0\lambda>0$ ，则 $ZTZ+λIZ^TZ+{\lambda}I$ 一定为正定矩阵，必然可逆。

对于更一般的条件， $w_{reg}$ 不是线性的，带入平行公式求解比较困难，可以换个角度进行考虑：
在这里插入图片描述

通过该变换，将有约束的最小化 $E_{in}(w)$ ，转化为无约束最小化 $E_{aug}(w)$ aug为增广误差，第二项是限制条件，也称为权重衰减项。

如果使用正则化，只要设置朗格朗日乘子大于0即可；如果不使用将 $λ\lambda$ 置为0即可。
在这里插入图片描述
从图中可以看出，对于过拟合的情况，通过引入不同取值的拉格朗日乘子，模型逐渐欠拟合。可以把拉格朗日乘子 λ看做惩罚项，λ 越大，权重向量 $w$ 就越小，对应于约束范围 $C$ 值就越小，即对假设模型中的高次项惩罚力度大，高阶项被削弱，模型不能表达高维空间的特征，从而导致欠拟合。在实际应用过程中，λ 取多少合适，还要根据自己的业务需求进行调整。
在这里插入图片描述

正则化和VC理论

在这里插入图片描述
以上三式中的参数说明：

$w^Tw：$ 单个假设函数的复杂度记为： $Ω(w)\Omega(w)$
$Ω(H(C)):\Omega(H(C)):$ 假设空间复杂度

根据 VC-Dimention理论，整个假设空间的 $d_{vc}=d+1$ ，这是因为，在求解最小化的过程中，所有假设函数的{ $w$ }都被考虑在内。也就是说 $d_{vc}(H)$ 比较大代表了整个假设空间，但是由于朗格朗日乘子的限制，限定了权重向量只能取一小部分，有许多项被丢弃了，实际考虑的只有 $H (C)$ 。因此有效的VC-dimension $d_{EFF}(H,A)$ 比较小。：