机器学习-正则化

最新推荐文章于 2025-07-16 00:16:03 发布

泡泡码客

最新推荐文章于 2025-07-16 00:16:03 发布

阅读量219

点赞数 1

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习正则化欠拟合过拟合

本文链接：https://blog.youkuaiyun.com/qq_28827635/article/details/83508316

机器学习专栏收录该内容

30 篇文章

订阅专栏

查看更多 - https://breezedawn.github.io/

1. 正则化

它可以改善或者减少过度拟合问题

2. 欠拟合(模型的高偏差)

欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或者模型没有很好地捕捉到数据特征，不能够很好地拟合数据。

3. 过拟合(模型的高方差)

为什么出现过拟合

特征过多
训练集数据较少
模型复杂

对过拟合的理解

如果我们拟合一个高阶多项式，那么这个函数能很好的拟合训练集能拟合几乎所有的训练数据，这就面临可能函数太过庞大的问题，即变量太多。同时如果我们没有足够的数据去约束这个变量过多的模型，就会出现过度拟合的情况。虽然训练出的模型能够很好的拟合训练集的样本数据，但很有可能无法泛化新样本。

如何解决过拟合

尽量减少选取特征数量。

后面会学到模型选择算法，它能够自动选择采用哪些特征变量，且自动舍弃不需要的变量
正则化

保留所有特征变量，但是减少参数 $\theta_j$ 的大小

4. 怎么应用正则化

思想与做法

修改代价函数，从而收缩(惩罚)所有的参数值，因为我们并不知道具体的去收缩(惩罚)哪些参数，

修改后的代价函数如下：
$J\left(\theta\right)=\frac{1}{2m}[\sum\limits_{i=1}^{m}{({h_\theta}({x}^{(i)})-{y}^{(i)})^{2}+\lambda \sum\limits_{j=1}^{n}\theta_{j}^{2}]}$
$\lambda$ 又称为正则化参数（Regularization Parameter），它能够平衡代价函数，使 $\theta_j$ 尽可能的小。

注：根据惯例，我们的 $j$ 是从1开始的，也就是我们不对 ${\theta_{0}}$ 进行惩罚。

举一个例子

我们看这个假设函数: $h_\theta\left( x \right)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}^2+\theta_{3}x_{3}^3+\theta_{4}x_{4}^4$ 。**通常地，正是那些高次项导致了过拟合的产生，所以如果我们能让这些高次项的系数接近于0的话，我们就能很好的拟合了。**于是我们将修改代价函数，在其中 ${\theta_{3}}$ 和 ${\theta_{4}}$ 设置一点惩罚。这样做的话，我们在尝试最小化代价时也需要将这个惩罚纳入考虑中，并最终导致选择较小一些的 ${\theta_{3}}$ 和 ${\theta_{4}}$ 。修改后如下 :
$\underset{\theta }{\mathop{\min }}\frac{1}{2m}[\sum\limits_{i=1}^{m}{\left({h}_{\theta}\left({x}^{(i)}\right)-{y}^{(i)}\right)^{2}+1000\theta_{3}^{2}+10000\theta _{4}^{2}]}$
但是正是因为我们并不知道具体的哪一个 $\theta$ 是高次项，因此我们只能去收缩(惩罚)所有参数。

但是

如果我们令 $\lambda$ 的值很大的话，那么 $\theta$ （不包括 $\theta_0$ ）都会趋近于0，这样我们所得到的只能是一条平行于 $x$ 轴的直线。所以对于正则化，我们要取一个合理的 $\lambda$ 的值，这样才能更好的应用正则化。

5. 正则化线性回归

正则化代价函数

$J\left(\theta\right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{[(({h_\theta}({x}^{(i)})-{y}^{(i)})}^{2}+\lambda \sum\limits_{j=1}^{n}{\theta _{j}^{2})]}$

正则化梯度下降

要使梯度下降法令正则化后的线性回归代价函数最小化，因为我们没有对 $\theta_0$ 进行正则化，所以梯度下降算法有两种情形：
${\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}(({h_\theta}({x}^{(i)})-{y}^{(i)})x_{0}^{(i)})$

${\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}({h_\theta}({x}^{(i)})-{y}^{(i)})x_{j}^{\left(i\right)}+\frac{\lambda }{m}{\theta_j}]$

对第二个式子进行变化后，可得:
${\theta_j}:={\theta_j}(1-a\frac{\lambda }{m})-a\frac{1}{m}\sum\limits_{i=1}^{m}({h_\theta}({x}^{(i)})-{y}^{(i)})x_{j}^{\left(i\right)}$
可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令 $\theta$ 值减少了一个额外的值。

PS：梯度下降仍然是对 $J(\theta)$ 进行最小化，通过求导，得出梯度下降算法

正则化正规方程

在这里插入图片描述

注：图中的矩阵尺寸为 $(n + 1) * (n + 1)$ 。

值得一提的是，哪怕此时 $X$ 不可逆，经过 $\lambda$ 相加变化后的矩阵将是可逆的。

6. 正则化逻辑回归

正则化代价函数

$J\left(\theta\right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{y}^{(i)}\log \left({h_\theta}\left({x}^{(i)}\right)\right)-\left(1-{y}^{(i)} \right)\log\left(1-{h_\theta}\left({x}^{(i)}\right) \right)]}+\frac{\lambda}{2m}\sum\limits_{j=1}^{n}\theta _{j}^{2}$