[Machine Learning] 5 正则化(Regularization)

最新推荐文章于 2025-07-08 09:21:00 发布

今天你DEBUG了吗

最新推荐文章于 2025-07-08 09:21:00 发布

阅读量278

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_45399074/article/details/107203884

机器学习专栏收录该内容

17 篇文章

订阅专栏

本文探讨了正则化技术在防止机器学习模型过拟合中的应用，通过修改代价函数，使模型更加泛化，避免高方差问题。详细介绍了正则化线性回归与逻辑回归的实现方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

点Ta

- 5 Regularization(正则化)

5 Regularization(正则化)

5.1 The problem of overfitting

case1：
在这里插入图片描述

第一个模型是一个线性模型，欠拟合，高偏差，不能很好地适应训练集；
第三个模型是一个四次方的模型，过拟合，高方差，过于强调拟合原始数据，而丢失了算法的本质：预测新数据。即，若给出一个新的值使之预测，它将表现的很差；
而中间的模型似乎最合适。

case2：
在这里插入图片描述
同上。

过拟合的解决方法
在这里插入图片描述

5.2 Cost Function

上面的回归问题中模型是：
在这里插入图片描述
一般而言，正是那些高次项导致了过拟合的产生，所以如果能让这些高次项的系数接近于 0 的话，就能很好的拟合了，所以可以在一定程度上减小这些参数𝜃 的值，这正是正则化的基本方法。当要减少𝜃3和𝜃4的大小，需要做的便是修改代价函数，在其中𝜃3和𝜃4 设置一点惩罚。在尝试最小化代价时也需要将这个惩罚纳入考虑中，并最终导致选择较小一些的𝜃3和𝜃4。

修改后的代价函数：
在这里插入图片描述
通过这样的代价函数选择出的𝜃3和𝜃4 对预测结果的影响就比之前要小许多。假如有非常多的特征，我们不知道其中哪些特征需要惩罚，可以对所有的特征进行惩罚。这样的结果是得到了一个较为简单的能防止过拟合问题的假设：
在这里插入图片描述
其中𝜆又称为正则化参数（Regularization Parameter）。注：根据惯例，我们不对𝜃0 进行惩罚。

经过正则化处理的模型（粉色）与原模型（蓝色）的可能对比如下图所示：
在这里插入图片描述
如果选择的正则化参数 λ 过大，则会把所有的参数都最小化了，那么𝜃（不包括𝜃0）都会趋近于 0，这样我们所得到的只能是一条平行于𝑥轴的直线，模型变成 ℎ_𝜃(𝑥) =𝜃₀，造成欠拟合。

5.3 Regularizede linear regression(正则化线性回归)

对于线性回归的求解，之前推导了两种学习算法：一种基于梯度下降，一种基于正规方程。

正则化线性回归的代价函数为：
在这里插入图片描述
如果要使用梯度下降法令这个代价函数最小化，因为未进行正则化，所以梯度下降算法将分两种情形：

对上面的算法中𝑗 = 1,2, . . . , 𝑛 时的更新式子进行调整可得：

可以看出，正则化线性回归的梯度下降算法的变化在于，每次都在原有算法更新规则的基础上令𝜃值减少了一个额外的值。

注：在梯度下降时，对任意的θ_j的处理可以分为两部分，J(θ)的偏导数 + 单独针对该θ_j的正则化项。

同样也可以利用正规方程来求解正则化线性回归模型，方法如下所示：在这里插入图片描述
图中的矩阵尺寸为 (𝑛 + 1) ∗ (𝑛 + 1)。

5.4 Regularized Logistic Regression(正则化的逻辑回归模型)

针对逻辑回归问题，之前已学习过两种优化算法：首先学习了使用梯度下降法来优化代价函数𝐽(𝜃)，接下来学习了更高级的优化算法，这些高级优化算法需要自己设计代价函数𝐽(𝜃)。
在这里插入图片描述
对于逻辑回归，代价函数正则化的表达式：

要最小化该代价函数，通过求导，得出梯度下降算法为：

注：虽然看上去同线性回归一样，但是假设模型 ℎ_𝜃(𝑥) 不同。另外，𝜃₀不参与其中的任何一个正则化。
在这里插入图片描述