[Machine Learning] 5 正则化(Regularization)

本文探讨了正则化技术在防止机器学习模型过拟合中的应用,通过修改代价函数,使模型更加泛化,避免高方差问题。详细介绍了正则化线性回归与逻辑回归的实现方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

5 Regularization(正则化)

5.1 The problem of overfitting

case1:
在这里插入图片描述

  • 第一个模型是一个线性模型,欠拟合高偏差,不能很好地适应训练集;
  • 第三个模型是一个四次方的模型,过拟合高方差,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。即,若给出一个新的值使之预测,它将表现的很差;
  • 而中间的模型似乎最合适。

case2:
在这里插入图片描述
同上。

过拟合的解决方法
在这里插入图片描述

5.2 Cost Function

上面的回归问题中模型是:
在这里插入图片描述
一般而言,正是那些高次项导致了过拟合的产生,所以如果能让这些高次项的系数接近于 0 的话,就能很好的拟合了,所以可以在一定程度上减小这些参数𝜃 的值,这正是正则化的基本方法。当要减少𝜃3和𝜃4的大小,需要做的便是修改代价函数,在其中𝜃3和𝜃4 设置一点惩罚。在尝试最小化代价时也需要将这个惩罚纳入考虑中,并最终导致选择较小一些的𝜃3和𝜃4。

修改后的代价函数:
在这里插入图片描述
通过这样的代价函数选择出的𝜃3和𝜃4 对预测结果的影响就比之前要小许多。假如有非常多的特征,我们不知道其中哪些特征需要惩罚,可以对所有的特征进行惩罚。这样的结果是得到了一个较为简单的能防止过拟合问题的假设:
在这里插入图片描述
其中𝜆又称为正则化参数(Regularization Parameter)。 注:根据惯例,我们不对𝜃0 进行惩罚。

经过正则化处理的模型(粉色)与原模型(蓝色)的可能对比如下图所示:
在这里插入图片描述
如果选择的正则化参数 λ 过大,则会把所有的参数都最小化了,那么𝜃(不包括𝜃0)都会趋近于 0,这样我们所得到的只能是一条平行于𝑥轴的直线,模型变成 ℎ𝜃(𝑥) =𝜃0,造成欠拟合。

5.3 Regularizede linear regression(正则化线性回归)

对于线性回归的求解,之前推导了两种学习算法:一种基于梯度下降,一种基于正规方程。

正则化线性回归的代价函数为:
在这里插入图片描述
如果要使用梯度下降法令这个代价函数最小化,因为未进行正则化,所以梯度下降算法将分两种情形:
在这里插入图片描述
对上面的算法中𝑗 = 1,2, . . . , 𝑛 时的更新式子进行调整可得:
在这里插入图片描述
可以看出,正则化线性回归的梯度下降算法的变化在于,每次都在原有算法更新规则的基础上令𝜃值减少了一个额外的值。

注:在梯度下降时,对任意的θj的处理可以分为两部分,J(θ)的偏导数 + 单独针对该θj的正则化项。

同样也可以利用正规方程来求解正则化线性回归模型,方法如下所示:在这里插入图片描述
图中的矩阵尺寸为 (𝑛 + 1) ∗ (𝑛 + 1)。

5.4 Regularized Logistic Regression(正则化的逻辑回归模型)

针对逻辑回归问题,之前已学习过两种优化算法:首先学习了使用梯度下降法来优化代价函数𝐽(𝜃),接下来学习了更高级的优化算法,这些高级优化算法需要自己设计代价函数𝐽(𝜃)。
在这里插入图片描述
对于逻辑回归,代价函数正则化的表达式:
在这里插入图片描述
要最小化该代价函数,通过求导,得出梯度下降算法为:
在这里插入图片描述
注:虽然看上去同线性回归一样,但是假设模型 ℎ𝜃(𝑥) 不同。另外,𝜃0不参与其中的任何一个正则化。
在这里插入图片描述

上一篇:4 逻辑回归(Logistic Regression)
下一篇:6 神经网络:表述(Neural Networks: Representation)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值