台大李宏毅Machine Learning学习笔记（二）——回归(Regression)（一）

最新推荐文章于 2022-09-15 00:46:51 发布

原创最新推荐文章于 2022-09-15 00:46:51 发布 · 375 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #李宏毅 #回归 #线性模型 #过拟合

机器学习笔记专栏收录该内容

5 篇文章

订阅专栏

本文通过预测宝可梦进化后的CP值，介绍了回归分析的基本原理。包括模型选择、损失函数定义、梯度下降法应用及过拟合问题解决。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先看一个实例，以直观理解回归：假设我抓到一只宝可梦，我想知道它进化后的 $c p$ 值，以此来确定我是进化它还是把它当做食物喂其他的宝可梦（不忍~~）。如图1：
Alt=图1宝可梦cp值

图1 宝可梦

图中， $x_{cp}$ 是进化前的宝可梦的 $c p$ 值， $x_s$ 是它的物种， $x_{hp}$ 是它的 $H P$ 值， $x_w$ 是体重，这些值都称为属性（attribute），设 $y$ 为进化后宝可梦的 $c p$ 值，则我们预测 $y$ 可分以下三步进行：

第一步：寻找一个模型（model）

模型有无穷无尽个，在此假设选取一个线性模型 $y=b+w{\cdot}x_{cp}\tag{1}$ （后面会看到更好的模型），其中， $w$ ， $b$ 为参数。则我们可令：

$f_1:y=10.0+9.0{\cdot}x_{cp}$ ；
$f_2:y=9.8+9.2{\cdot}x_{cp}$ ；
$f_3:y=-0.8-1.2{\cdot}x_{cp}$ ;
${\cdots\cdots}$

这些模型有好有坏，例如第三个显然是错的，因为一般来说进化过后 $c p$ 值是大于进化之前的，这时我们就要在这些模型中找一个较好函数。

第二步：寻找一个“上帝”的函数

假设我现在收集了十组数据 $(x^1,\hat y^1)，(x^2,\hat y^2),{\cdots},(x^{10},\hat y^{10})$ （用上标表示一个对象，下标表示对象中的某一具体属性），通常，我们称这组数据为训练集（training set），如下图2：

图2 损失函数在第一步中，我们假设了线性模型，因为

w, b

是不确定的，那么怎么知道无数个线性模型中哪一个是我们需要的函数呢？这时候就要定义一个函数，来评判这些线性函数中哪一个是最好的。在此，我们定义损失函数（loss function）：

L(f)=L(w,b)=\sum\limits_{n=1}^{10}(\hat y-(b+w{\cdot}x_{cp}^n))^2\tag 2

当然，也可以定义别的损失函数，但就目前的模型来说，最小二乘形式的损失函数是最合理 ¹。

最好的函数

第二步中，我们定义了损失函数，要找到最好的能够预测宝可梦的 $c p$ 值的函数，只要最小化损失函数就可以了，即 $f^*=arg\min\limits_fL(f)\tag 3$ 其中， $f^*$ 为我们所要求的函数，带入要求的 $w^*,b^*$ ， $(3)$ 式变为： $w^*,b^*=arg\min\limits_{w,b}L(w,b)=arg\min\limits_{w,b}\sum\limits_{n=1}^{10}(\hat y^n-(b+w{\cdot}x_{cp}^n))^2\tag 4$ 求 $w^*,b^*$ 的方法最简单粗暴的就是穷举法，但是那几乎是不可能的。此处，我们用梯度下降法（Gradient Descent）来，操作方法如下：
1.随机初始化 $w^0,b^0$ ;
2.更新参数，令 $w^1=w^0-{\eta}\frac{\partial L}{\partial w}|_{w=w^0}$ ， $b^1=b^0-{\eta}\frac{\partial L}{\partial b}|_{b=b^0}$ ;
3.更新参数，令 $w^2=w^1-{\eta}\frac{\partial L}{\partial w}|_{w=w^1}$ ， $b^2=b^1-{\eta}\frac{\partial L}{\partial b}|_{b=b^1}$ ;
4. ${\cdots\cdots}$ ;
5.直到找到最优解。如下图3：
在这里插入图片描述

图3 梯度下降

上式中， $\eta$ 称为学习率， $\frac{\partial L}{\partial w}=\sum\limits_{n=1}^{10}2(\hat y^n-(b+w{\cdot}x_{cp}^n))(-x_{cp}^n)\tag 5$ $\frac{\partial L}{\partial b}=\sum\limits_{n=1}^{10}2(\hat y^n-(b+w{\cdot}x_{cp}^n))(-1)\tag6$ ²。由于线性回归问题是凸规划³问题，所有不存在局部最优解（local optimal）。根据以上推到求出的结果如下：
图 4 训练集集

图4 训练集集结果

从上图看结果在起始的两个点和结束的两个点误差较大，但我们更关心在我们给定另外的 $c p$ 值的情况下，这个函数能不能预测准确，因此，找来另外十组数据（通常称之为测试集）来检验这个函数是否预测准确，结果如下：
图5 测试集

图5 测试集结果从上图可以看出，测试集结果要比训练集差（通常如此），误差是比较大的，因此，可要考虑换几个模型看看，假设如下几个模型：

1. $y=b+w_1{\cdot}x_{cp}$
2. $y=b+w_1{\cdot}x_{cp}+w_2{\cdot}x_{cp}^2$ ；
3. $y=b+w_1{\cdot}x_{cp}+w_2{\cdot}x_{cp}^2+w_3{\cdot}x_{cp}^3$ ；
4. $y=b+w_1{\cdot}x_{cp}+w_2{\cdot}x_{cp}^2+w_3{\cdot}x_{cp}^3+w_4{\cdot}x_{cp}^4$ ；
5. $y=b+w_1{\cdot}x_{cp}+w_2{\cdot}x_{cp}^2+w_3{\cdot}x_{cp}^3+w_4{\cdot}x_{cp}^4+w_5{\cdot}x_{cp}^5$
对比结果如下：
图6 过拟合

图6 不同模型对比结果、过拟合

可以看出当选取的函数阶次越高时，训练集拟合得越好，这是由于 $n$ 次多项式可任意逼近非线性函数，但是在我们更关心的测试集上，阶次越高，精度不一定越好，称这种现象为过拟合（overfitting），导致函数的泛化（generation）能力差。

随着我们的宝可梦越抓越多，假设有60个，数据如下图7：

图7 隐藏的属性从上图可以发现的问题是：这些数据怎么也不能用一条直线来拟合的或者说用一条直线拟合误差很大。说明还有别的因素影响进化后的

c p

值，比如说物种。因此，我们改善我们的模型：令

x_s=species\ of\ x:

if\ x_s=Pidgey:y=b_1+w_1\cdot x_{cp}

if\ x_s=Weedle:y=b_2+w_2\cdot x_{cp}

if\ x_s=Caterpie:y=b_3+w_3\cdot x_{cp}

if\ x_s=Eevee:y=b_4+w_4\cdot x_{cp}

将上面四个式子合起来写就是：

y=b_1\cdot\delta(x_s=Pidgey)+w_1\cdot\delta(x_s=Pidgey)\cdot x_{cp}+b_2\cdot\delta(x_s=Weedle)+w_2\cdot\delta(x_s=Weedle)\cdot x_{cp}

+b_3\cdot\delta(x_s=Caterpie)+w_3\cdot\delta(x_s=Caterpie)\cdot x_{cp}+b_4\cdot\delta(x_s=Eevee)+w_4\cdot\delta(x_s=Eevee)\cdot x_{cp}\tag 8

其中，

\delta(x_s=Pidgey)=\left\{ \begin{aligned} x &amp; = 1 \ \ \ \ if\ \ x_s=Pidgey \\ y &amp; =0 \ \ \ \ otherwise\\ \end{aligned} \right.

\dots\dots

，

\delta(x_s=Pidgey),\delta(x_s=Weedle)\dots\dots

就是前面所说的特征（这样写虽然比较奇怪，但毫无疑问是正确的，后面还会碰到这种写法，应在此熟悉之）。通过求解得到结果如下：

图8 不同物种的拟合结果貌似结果还比较可靠。这时，如果想要继续提高预测精度，自然而然会想到是不是还有别的属性也影响

c p

值呢？好，接着往下走。
为了追求更精确的结果，我们将能想到的属性，如身高、体重、

H P

值都考虑进去，重新构造一个函数如下图：

图9 重新构造的函数这个函数比较复杂，在训练集上能够取得很好的结果，但是泛化性能很差，造成过拟合。怎么解决这种过拟合问题呢？第一反应就是减少特征的数量，只保留几种用处比较大的特征，同时，我们也丢失了信息，但是有时候所有的特征都是有用的，我们并不想丢弃，这种情况下就需要用正则化 ⁴（Regularization）来解决问题。
图10

图10 正则化如图中所示，当我们最小化损失函数时，如果

\lambda

比较大的话，

w_i

就会很小，输入的变化对函数的输出影响就会小得多，即函数比较平滑。
图11

图11 正则化后的结果我们调整

\lambda

的值，发现并不是函数越平滑越好，当

\lambda=100

的时候结果最好。

以上就是本人关于台大李宏毅机器学习视频的第一个笔记，如果有表述不当或错误的地方欢迎批评指正！

吴恩达机器学习视频好像证明了为什么选最小二乘，感兴趣的同学可以去看看，如果有时间的话，后面我会贴出来。 ↩︎
为了方便起见，消除 $(5), (6)$ ,式中的常数2，实际上我们通常看到的损失函数形式是： $L(w,b)=\frac{1}2\sum\limits_{n=1}^{10}(\hat y-(b+w{\cdot}x_{cp}^n))^2\tag 7$ ↩︎
凸规划可以参见最优化知识，这里不赘述。 ↩︎
正则化部分很复杂，这里只是简单介绍，在实际中会遇到很多正则化问题 ↩︎