李宏毅机器学习笔记 2.回归

最新推荐文章于 2024-06-30 18:59:35 发布

原创最新推荐文章于 2024-06-30 18:59:35 发布 · 630 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文介绍了李宏毅机器学习课程中的线性回归，包括损失函数、梯度下降和过拟合与正则化。讨论了线性回归模型参数、最小二乘法求解最优解，并解释了梯度下降法如何找到全局最优参数。最后，探讨了过拟合现象及正则化项的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在跟着Datawhale组队学习打卡，学习李宏毅的机器学习/深度学习的课程。
课程视频：https://www.bilibili.com/video/BV1Ht411g7Ef
开源内容：https://github.com/datawhalechina/leeml-notes
本篇文章对应视频中的P3。另外，最近我也在学习邱锡鹏教授的《神经网络与深度学习》，会补充书上的一点内容。

通过上一次课1.机器学习介绍，我们了解到机器学习分为3个步骤1）define a set of function；2）goodness of function；3）pick the best function。本篇文章主要介绍线性回归中的（1）损失函数、（2）梯度下降、（3）过拟合和正则化。

文章目录

1. 损失函数

目的：损失函数就是用来衡量模型好坏的，即预测值和真实值之间的差别。

偏倚 bias：模型预测值与真实值的差异，由于学习算法的错误或过于简单的假设造成的误差，它会导致模型欠拟合

1.1 线性回归模型的参数

对于一个线性回归的模型，有
$\sum w_ix_i \tag{1.1}$
其中， $x_i$ 是各个特征， $w_i$ 是各个特征的权重， $b$ 为偏移量， $y$ 为预测值.

1.2 损失函数Loss Function的公式

损失函数的公式为
$\sum_{n=1}^{10}(\hat{y}^n-f(x_{cp}^n))^2 \tag{1.2}$
需要注意的是，这里的 $x^n$ 与1.1式中的 $x_i$ 不同。对于训练集中不同的样本，这里使用 $x^1, x^2,...,x^n$ 来表示每个样本的特征向量。 $\hat{y}$ 为真实值。
在这里插入图片描述

1.3 $f^*$ 找出最好的function（最小二乘法）

我们需要找出损失函数值最小的function，并将其记为 $f^*$ ， $f^*$ 的公式可见下图：
在这里插入图片描述
显然，为了找到 $f^*$ ，我们需要找出满足 $f^*$ 的最优解 $w^*$ 和 $b^*$ 。

在西瓜书中也有提到，基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。因此，我们可以将 $L (w, b)$ 分别对 $w$ 和 $b$ 求导，令求导式为0，则可以得到最优解 $w^*$ 和 $b^*$ 。

这里我公式推导一下用“最小二乘法”对 $w^*$ 和 $b^*$ 求解：
在这里插入图片描述
除了上述的最小二乘法，我们还可以用梯度下降的思想来求解最优的function的参数。

2. 梯度下降

目的：梯度下降就是要找出满足全局最优点的参数值。那么在只有一个参数的情况下，就是找出曲线的最低点，类似“下山”（因为损失函数的值越低越好）。

需要用到数学中的求导，偏微分，来接近参数 $w$ 取值的最优点。
如果斜率<0 ， $\rightarrow$ 右边损失函数的值更低， $\rightarrow$ 因此要往右边走， $\rightarrow$ 即 $w$ 增大（从 $w_1$ 走到 $w_2$ ）。
学习率learning rate：学习的步长（大：容易震荡；小：收敛慢）
在线性回归中没有局部最优，只有全局最优，所以目前不用考虑如何跳出局部最优。