【Machine Learning, Coursera】机器学习Week3 Regularization

最新推荐文章于 2022-02-02 17:21:40 发布

Aki-Z

最新推荐文章于 2022-02-02 17:21:40 发布

阅读量378

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习

本文链接：https://blog.youkuaiyun.com/weixin_42395916/article/details/80941975

机器学习专栏收录该内容

23 篇文章

订阅专栏

本文探讨了机器学习中的过拟合问题及其解决方法——正则化。介绍了过拟合的原因、表现及如何通过减少特征数量或使用正则化来解决过拟合问题，并详细解释了正则化在损失函数中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Regularization: The Problem of Overfitting

本节内容：过拟合及其解决办法

相关机器学习概念：
1. 过拟合(overfitting)、欠拟合(underfitting)
2. 方差(variance)、偏差(bias)
3. 正则化(regularization)

1. What is Overfitting

If we have too many features, the learned hypothesis may fit the training set very well( $J(\theta)≈0$ ), but fail to generalize to new examples.

特征数量过多会导致过拟合(overfitting)，或者叫高方差(high variance)，此时模型对训练集的拟合效果非常好，但用验证集验证时误差较大，即模型通用性差。
与之相对的，特征数量过少会导致欠拟合(underfitting)，或者叫高偏差(high bias)，即模型对训练集的挖掘仍有欠缺。
要得到拟合性和泛化性好的模型，就需要避免这两个问题。
$\\$

2. Addressing Overfitting

因为导致过拟合的根本原因是特征数量过多，解决过拟合问题的一个直接思路就是减少特征数量。此外，还可以保留特征，但减小特征参数的值，以达到类似的效果。这种方法我们称之为正则化(Regularization)。
1. 减少特征数量
– 人工选择
– 模型选择(后面的课会提到)
2. 正则化
–保留所有特征，但减小参数值
–在参数很多时预测效果好，每个参数均作出微小贡献
$\\$

3. Regularization

3.1 Cost function

正则化的方法是在损失函数后增加一个用于惩罚参数的正则化项，以减小参数的值，避免过拟合。正则化项的形式为

λ \sum j = 1 n θ 2 j

$\lambda\sum_{j=1}^n\theta_j^2$

线性回归正则化后的损失函数为

J (θ) = 1 2 m [\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j]

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 + \lambda\sum_{j=1}^n\theta_j^2]$

其中， $\lambda$ 为正则化参数，其目的是控制降低误差和避免过拟合这两个目的间的平衡。
按照惯例，我们不用惩罚 $\theta_0$ ，求和从 $j=1$ 开始。

3.2 Choosing $\lambda$

$\lambda$ 设定过大反而会导致欠拟合。如 $\lambda=10^{10}$ 时，由于对参数的惩罚过大，会导致除了 $\theta_0$ 外的所有参数趋近于零。这相当于去掉所有特征，将假设简化为 $h_\theta(x)=\theta_0$ ，拟合曲线为一条平行于x轴的直线。
在后面讲到多重选择时，我们将讨论一些自动选择合适的 $\lambda$ 的方法。
$\\$

4. Regularized Linear Regression

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 + \lambda\sum_{j=1}^n\theta_j^2]$
$min\ J(\theta)$

这里写图片描述
因为不惩罚 $\theta_0$ ，所以在正则化线性回归算法中要将 $j=0$ 和 $j=1,2,...,n$ 的情况分开处理。可以看到，对于 $j=1,2,...,n$ ，新的梯度下降只是将原来的前项 $\theta_j$ 换成了 $\theta_j(1-\alpha\frac{\lambda}{m})$ ，起到压缩参数的作用。
如果学习速率小而样本量很大的话，通常 $1-\alpha\frac{\lambda}{m}$ 是一个比1小一点的值。
$\\$

5. Regularized Logistic Regression

$J(\theta)=-\frac{1}{m}\sum_{i=1}^{m}[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]+\frac{\lambda}{2m}\sum_{j=1}^n\theta_j^2$
$min\ J(\theta)$

在https://blog.youkuaiyun.com/weixin_42395916/article/details/80844107中，我们提到逻辑回归参数估计的方法有两种，一种是梯度下降法，一种是高级的优化算法。

5.1 Gradient Descent

正则化逻辑回归的梯度下降更新和正则化线性回归的梯度下降更新形式相同，但它们仍是两个不同的算法，因为假设 $J_\theta(x)$ 是不同的。
这里写图片描述

5.2 Advanced Optimization Algorithm

如果要用高级优化算法求解正则化逻辑回归的参数，关键在于自定义函数costFunction，该函数传入(n+1)x1向量theta，返回计算的代价函数值和梯度值。
之后，将costFunction传入fminunc函数，即可返回无约束条件下的损失函数最小值和参数的解。
这里写图片描述
*Matlab中索引从1开始