【吴恩达机器学习】正则化 Regularization

最新推荐文章于 2024-03-13 21:28:23 发布

Elliott__

最新推荐文章于 2024-03-13 21:28:23 发布

阅读量422

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/monochrome00/article/details/104125072

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文探讨了正则化在解决机器学习中过拟合问题的应用，包括减少参数量级、修改代价函数以及在梯度下降和正规方程中的实现方式。正则化有助于在保持所有特征的同时，降低模型复杂度，避免过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则化（Regularization）

过拟合问题（The Problem of Overfitting）

在这里插入图片描述

左边的算法没有很好地拟合训练集，这个问题称作欠拟合(underfitting)，也可以说该算法具有高偏差(high bias)
中间的算法拟合效果不错，是理想的模型
右边的算法几乎完美地拟合了训练集，它的代价函数也可能接近于0，但是它最后给出的模型并不好。这就是过拟合(Overfitting) 问题，也称该算法具有 高方差(high variance)

解决过拟合问题的方法

减少选取特征的数量
- 手动删去部分特征变量
- 模型选择算法(Model Selection Algorithm)
正则化(Regularization)
- 保留所有的特征变量，但是减少参数 $\theta_j$ 的量级或数值大小

代价函数（Cost Function）

正则化的思路就是减少参数 $\theta_j$ 的量级或数值大小
理想的情况下，我们选出一些影响较小的特征，并减小它们对应的参数，假设是 $\theta_3,\theta_4$ ，我们可以修改代价函数来达到这个效果：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{i})-y^{(i)})+\lambda_3\theta_3^2+\lambda_4\theta_4^2$
但通常我们是很难选出哪些特征重要，哪些次要，所以我们直接把代价函数改成如下形式：
$J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{i})-y^{(i)})+\lambda\sum_{j=1}^n\theta_j^2$
如果 $\lambda$ 过小，就相当于没有正则化。
如果 $\lambda$ 过大， $\theta_1...\theta_n$ 有可能都会趋向于 $0$ ，只剩下一个 $\theta_0$ ，图像就只剩下了一条直线，也就会出现欠拟合问题。

线性回归的正则化（Regularized Linear Reression）

梯度下降算法：

$\begin{aligned} & repeat\;until\;converge\{\\ & \qquad \theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m{(h_\theta(x^{(i)})-y^{(i)})x_0^{(i)}}\\ & \qquad \theta_j:=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m{(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)}}+\frac{\lambda}{m}\theta_j\\ & \}\\ \end{aligned}$

转化一下第二个式子：
$\theta_j:=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum_{i=1}^{m}{h_\theta(x^{(i)})-y^{(i)}x_j^{i}}$
其中系数 $1-\alpha\frac{\lambda}{m}$ 是一个比 $1$ 小，但接近 $1$ 的数。此时算法的意义就是每次对参数 $\theta_j$ 缩小，然后再正常的进行梯度下降。