八、过拟合问题

最新推荐文章于 2024-10-16 16:58:00 发布

Dragon Fly

最新推荐文章于 2024-10-16 16:58:00 发布

阅读量580

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习算法深度学习

本文链接：https://blog.youkuaiyun.com/weixin_43160744/article/details/122041020

机器学习专栏收录该内容

23 篇文章

订阅专栏

本文详细介绍了过拟合的概念及其解决方案，并重点探讨了通过归一化处理过拟合问题的方法，包括线性回归和逻辑回归中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、过拟合-overfitting定义

$\qquad$ 如果我们设置过多的特征，通过机器学习获得的假设函数将会和实验数据高度重合(成本函数的值将会十分接近于0)，但是这样会使得获得的模型不能较好地预测新的样本数据值，这种问题叫做过拟合问题。通俗地说，就是学习出来的模型不具有良好的“推广”性(generalize)，实用性很差。
在这里插入图片描述

2、怎样处理过拟合问题

方法一：
$\qquad$ 减少特征数量，可以通过手动选择保留哪些特征，或者通过“模型选择”算法来实现特征筛选。
方法二：
$\qquad$ 归一化-Regularization，这种方法不需要减少特征数量，但是需要减少特征项的大小；归一化对于特征值很多时会取得较好的效果，尤其是各个特征对于结果值都有所贡献的时候。

3、归一化

$\qquad$ 为了应对过拟合问题，可以通过增加特征项在成本函数中的成本值来克服过拟合问题。例如，假如我们想使得下面的函数更加偏向二次函数：
$\theta_0+\theta_1x+\theta_2x^2+\theta_3x^3+\theta_4x^4$ $\qquad$ 我们想要减少三次方项 $\theta_3x^3$ 和四次方项 $\theta_4x^4$ 的影响，同时不将这两项从假设函数中删除，我们可以在成本函数中针对三次方项 $\theta_3x^3$ 和四次方项 $\theta_4x^4$ 增加两项惩罚项：
$min_\theta\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2+1000\theta_3^2+1000\theta_4^2$ $\qquad$ 在成本函数中增加了两项罚项之后，为了使得最终成本函数最小化，最终参数 $\theta_3$ 和 $\theta_4$ 的值必定比较小，从而减小了高次方项的影响，可以缓解过拟合问题。
$\qquad$ 上述方式的问题在于，给予哪些特征项参数惩罚很难确定，因为很难判断哪些特征项之间有较强的相关性，同时惩罚项的系数确定也是一个问题，系数的选择既不能太大也不能太小。所以有下述通用归一化成本函数：
$min_\theta\frac{1}{2m}(\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2+\lambda\sum_{j=1}^n\theta_j^2)$ $\qquad$ 其中， $\lambda$ 是归一化参数，当 $\lambda$ 取值过大时，会造成欠拟合问题，如除了参数 $\theta_0$ 之外，其他参数均取值为0；若 $\lambda$ 取值过小，则不能起到消除过拟合的作用，还是可能出现过拟合问题。

3.1 线性回归归一化

$\qquad$ 对归一化之后的成本函数使用梯度下降法的流程如下所示：
在这里插入图片描述
$\qquad$ 将归一化项提出来之后可以变为以下的形式：

$\qquad$ 其中， $1-\alpha\frac{\lambda}{m}$ 项小于1，所以相对于不归一化处理的梯度下降更新式来说，只是将 $\theta$ 项进行了缩小处理。
$\qquad$ 使用了归一化的正规方程的形式如下所示：
在这里插入图片描述
$\qquad$ 使用归一化还可以解决矩阵 $X^TX$ 不可逆的问题，可以证明在 $\lambda$ 大于0的情况下， $X^TX+\lambda ·L$ 是可逆的。