回归

最新推荐文章于 2023-04-19 17:51:42 发布

BrightHao_zi

最新推荐文章于 2023-04-19 17:51:42 发布

阅读量464

点赞数 1

分类专栏：机器学习与深度学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/BrightHao_zi/article/details/108588897

版权

机器学习与深度学习专栏收录该内容

3 篇文章

订阅专栏

回归（regression）

1.函数空间（function space）

一个函数越复杂，它的function space就越大。我们回归任务实际上是在函数空间中找到效果最好的function。

在这里插入图片描述

找到合适的函数空间非常重要。

若函数空间过小，最有函数不在所选的函数空间内，则不论怎么优化都无法找到最优函数。

e.g.如图，model是选择的function space，红色圆心是target function。则在当前model里无法得到target function。

在这里插入图片描述

如果函数空间过大，则可能会产生过拟合。

2.正则化（regularization）

在Loss函数中增加一个惩罚项
$L=\sum_{n}\left(\hat{y}^{n}-\left(b+\sum w_{i} x_{i}\right)\right)^{2}+\lambda \sum\left(w_{i}\right)^{2}$
增加正则项，可以使最后优化得到的函数更加平滑。

平滑是指当 $x$ 发生变化时， $y$ 发生的变化较小。

因为我们的目标是优化 $L$ 使其最小，优化过程是求取梯度，优化 $w_i$ 。那么我们通过对 $w_i$ 增加惩罚项，在优化的过程中就在 $w_i$ 上产生更大的梯度，则对应 $w_i$ 会被优化得更小。

我们使用 $\lambda$ 来控制对 $w_i$ 惩罚的程度。

通常我们认为拥有较小 $w_i$ 的函数是更好的

原因：如果有一些噪声出现在数据中，那么平滑的函数收到的影响更小。

但并不是越平滑越好：

在这里插入图片描述

直观理解：如果过于平滑，函数变成一条直线（很多参数被惩罚地接近于0（不起作用）），则事实上函数空间变小，不能拟合到最优的function。

3.偏差（bias）与方差（variance）

3.1直观理解bias和variance

在这里插入图片描述

3.2Bias和Variance的关系

在这里插入图片描述

3.3如何判断是高Bias还是高Variance

如果模型不能很好地fit训练数据，那么具有高bias Underfitting
如果可以很好地fit训练数据，但在测试数据上有很大错误，则据由高variance Overfitting

3.4如何处理高Bias

重新设计模型：

在输入数据集中增加特征
选用更复杂的模型

3.5如何处理高Variance

采用更多数据
正则化

3.6模型选择

我们通常会遇到对于bias和variance的trade-off
我们需要选择一个平衡两种误差的模型，使总误差最小

3.6.1交叉验证

讲训练集划分为训练集和验证集。用验证集去选择模型。

在这里插入图片描述

3.6.2N-fold交叉验证

在不同验证集上取平均来选择模型。

在这里插入图片描述

4.学习率

学习率选择十分重要，如果选择地过小，会导致模型收敛较慢。如果选择地过大，可能会导致模型不收敛。

4.1自适应学习率（adaptive learning rate）

学习率在训练的过程中是逐步变化的，同时每个参数都拥有自己的学习率。

4.1.1Adagrad

在这里插入图片描述

如图所示， $\sigma ^t$ 是之前参数 $w$ 导数的均方根

e.g.

在这里插入图片描述

表达式
$w^{t+1}\leftarrow w^t-\frac{\eta^t}{\sigma^t}g^t\\ \eta^t=\frac{\eta}{\sqrt{t+1}}\\ \sigma^t=\sqrt{\frac{1}{t+1}\sum^t_{i=0}(g^i)^2}$
化简得
$w^{t+1}\leftarrow w^t-\frac{\eta}{\sum^t_{i=0}(g^i)^2}g^t$

5.随机梯度下降（Stochastic Gradient Descent）

5.1与梯度下降的区别

梯度下降是计算所有样本的Loss后，在所有样本的Loss上做梯度下降
$L=\sum_n(\hat{y}^n-(b+\sum w_ix^n_i))^2\\ \theta^{i}=\theta^{i-1}-\eta \nabla L^{n}\left(\theta^{i-1}\right)$
注意上式开始的求和符号