机器学习[李宏毅]-笔记2-Regression:Case Study_average error function大还是小-优快云博客

本文链接：https://blog.youkuaiyun.com/greenmoss/article/details/107889125

本文探讨了回归算法在宝可梦CP值预测中的应用，通过梯度下降法寻找最佳模型，讨论了过拟合问题及解决策略，如正则化和考虑更多特征。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

回归(Regression)的应用场景

在这里插入图片描述

股票预测：输入股市的历史数据，输出明天股市的预测值；
无人驾驶：输入图片，输出方向盘的角度；
产品推荐：输入使用者和商品，输出该使用者购买该商品的可能性；
预测宝可梦（pokemon）进化后的CP（Combat Power）值；
- x_cp：进化前的CP值；
- x_s：属于哪一种物种；
- x_hp：生命值；
- x_w：重量；
- x_h：高度；

Step1:Model-确定模型

在这里插入图片描述

$y = b + wx_{cp}$
- $y$ 为进化后的CP值
- $b, w$ 为参数，可以为任意值
- $x_{cp}$ 为进化前的CP值

Step2:Goodness of Function-评估模型的好坏

在这里插入图片描述

$x_{cp}^n$ 表示第n只宝可梦进化前的CP值， $\hat y^n$ 表示第n只宝可梦进化后实际的CP值， $y^n$ 表示根据方程预测出的宝可梦进化后的CP值。

在这里插入图片描述

损失函数(Loss Function)：采用最小二乘法，评估方程的好坏；

在这里插入图片描述

越偏红色，代表方程越不好；越偏蓝色，代表方程越好，误差越小；

Step3:Best Function-选出最佳模型

在这里插入图片描述

arg是变元argument的缩写；

1).Gradient Descent-梯度下降

在这里插入图片描述

前提：需要损失函数Loss Function是可微分的；
上图以仅有一个参数的损失函数 $L (w)$ 为例，说明如何寻找 $w$ 使函数值最小；
随机选择一个初始值 $w^0$ ，计算该点的微分值，如果为负数，则需要增加 $w^1$ 的值；否则，减少 $w^1$ 的值；故 $\eta$ 前面为负号；
每个step的大小取决于两点：现在所处位置的微分值；常数项 $\eta$ ，称为learning rate;
经过多次迭代后，可得到局部最优解(local optimal)，即微分值为零的点；线性函数得到局部最优解就是全局最优解(global optimal)，非线性函数的局部最优解可能不等同于全局最优解；

在这里插入图片描述

损失函数有两个参数的情况；
上图中，最下面一行的下标写错了， $w^2$ 和 $b^2$ 应该是根据点 $w^1,b^1)$ 的微分值得到的；

在这里插入图片描述

梯度下降的过程如上图所示；
在线性回归中，损失函数是凸函数(convex)，局部最优解即为全局最优解；

在这里插入图片描述

求导得到偏微分

在这里插入图片描述

用一组数据训练（training data），再用另一组数据做测试数据（testing data）；
测试数据中得到的average error可能会比训练数据得到的average error更大一点；

在这里插入图片描述

尝试更加复杂的模型，增加一个二次项，如上图所示，可以看到得到的训练数据和测试数据的average error都更小，说明模型更好；
图中，右上角为训练数据，右下角为测试数据；

在这里插入图片描述

同理，考虑三次方的情况，可以看到训练数据和测试数据的average error都更小了一点；

在这里插入图片描述

考虑四次方的时候，可以看到训练数据得到的average error为14.9，比之前的更小，但测试数据的average error变大了，变为28.8；
考虑五次方的时候，得到的结果更加糟糕；

在这里插入图片描述

比较不同模型的结果；
因为高次方包含低次方的结果（将前面的系数设为零即可），所以在训练数据中的得到的average error随着次数的增大越来越小；
在训练数据中得到比较好的结果，在测试数据中得到不好的结果，这种现象叫做过拟合（overfitting);

在这里插入图片描述

当宝可梦数量达到60只的时候，显然不是上述的函数关系，进化后的CP值与宝可梦的物种有关；
将不同的物种用不同的颜色表示，如上图，所以需要重新设计模型；

2).根据不同物种重新设计模型

在这里插入图片描述

同一个模型的不同写法，第二种是写成线性函数；

在这里插入图片描述

采用上述模型，得到的结果如图所示；
有些地方不是拟合得很好，上述模型可以进一步优化吗？

在这里插入图片描述

修改模型，并将宝可梦的hp值考虑进去；
根据得到的结果，训练数据的average error为1.9，测试数据的average error为102.3，过拟合了；

在这里插入图片描述

$y=b+\sum w_ix_i$ ，考虑不同物种情况下，将模型写成线性函数的形式；
正则化（regularization），增加一项 $\lambda\sum (w_i)^2$ （惩罚项）， $\lambda$ 是一个常数；
$w_i$ 越小，表示函数越平滑，对输入值x不敏感；
$\lambda$ 越大，表示 $\lambda\sum (w_i)^2$ 在损失函数中的影响力越大，找到的函数越平滑；
在训练数据中， $\lambda$ 越大，越倾向于考虑w的值，减少考虑training error的值，得到的error越大；
在测试数据中， $\lambda$ 越大，得到的error先减小，后增大；我们喜欢平滑的函数，这样对输入值不敏感，但是又不能太平滑（例如，最平滑的情况就是一条水平线）；所以需要调整 $\lambda$ ，来得到比较理想的函数，图中 $\lambda=100$ 时比较理想；