B站：李宏毅2020机器学习笔记 3 —— 梯度下降Gradient Descent

沐木金

已于 2022-04-20 13:59:19 修改

阅读量992

点赞数

分类专栏：算法相关文章标签：机器学习

于 2022-04-20 10:38:27 首次发布

本文链接：https://blog.youkuaiyun.com/xczjy200888/article/details/124241842

版权

7 篇文章

订阅专栏

1、在回归篇的第四步已经提到，利用梯度下降算法解决函数参数优化问题
在这里插入图片描述
$θ^1$ 表示在 $θ^0$ 基础上调整后的，下一状态的参数

2、下图中 $C (θ)$ 表示的是损失函数 $L (θ)$ ，下一次的参数优化方向，根据损失函数梯度下降的方向（损失函数递减，因为目的是最小化损失函数）
在这里插入图片描述

当学习率小的时候，损失函数优化速度慢，如蓝色线条
当学习率大的时候，损失函数优化速度快，但容易卡主，来回震荡，无法到达最优，如绿色线条
当学习率很大的时候，损失函数无法优化，如蓝色线条
当学习率刚刚好的时候，损失函数可以得到很好的优化，如红色线条

要确定损失函数值在稳定的下降，才能真正的训练，建议设置learning rate的时候，可以画一下上图右图。

$g^t$ 表示损失函数对参数的导数
$σ^t$ 表示 $w$ 之前求导的均方根
在这里插入图片描述

自适应梯度下降： $w^{t+1} = w^t- \frac{η}{\sqrt{\sum_{i=0}^t{(g^i)^2}}}g^t$
在这里插入图片描述

梯度越大，优化step越大，但是在自适应梯度算法中，分母矛盾？
解释：
如果step的大小和微分的大小成正比，可能是最好的step。只在考虑一个参数时，才成立
- 从 $x_0$ 开始做梯度下降，最好的step是 $|x_0+\frac{b}{2a}|$ ，这样就一步到最优了，整理后为 $\frac{|2ax_0+b|}{2a}$ ，分子刚好等于微分。
最好的step，和一次微分成正比，和二次微分成反比。
想办法证明： $\sqrt{\sum_{i=0}^t{(g^i)^2}}$ 和二次微分有关系？
- 二次微分和 $\sqrt{一次微分^2}$ 值比较接近

两个参数： $s$ 和 $θ$ 无关，所以想要 $L (θ)$ 值最小化，就是寻求在原点为（a,b）基础上，向量 $(u, v)$ 和向量 $θ_1-a,θ_2-b)$ 乘积的最小值，就是他们反方向的时候。
$u$ 相当于损失函数对 $θ_1$ 的一阶导数（根据泰勒展开式至第一阶导数，根据极限，要 $x$ 和 $y$ 越接近 $x_0$ ， $y_0$ ，展开式的后面几项才可忽略；越接近，相当于红色圆圈半径越小）
$v$ 相当于损失函数对 $θ_2$ 的一阶导数