梯度下降专栏——局部下降最快的方向就是梯度的负方向

最新推荐文章于 2025-05-10 19:05:13 发布

修_远

最新推荐文章于 2025-05-10 19:05:13 发布

阅读量677

点赞数

CC 4.0 BY-SA版权

分类专栏：梯度下降

本文链接：https://blog.youkuaiyun.com/qq_43340801/article/details/97621603

梯度下降专栏收录该内容

0 篇文章

订阅专栏

本文深入探讨了梯度下降法背后的数学原理，解释了为何选择负梯度方向作为搜索方向，以及如何利用泰勒展开进行损失函数的近似，实现模型参数的最优解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.声明

author：修远

此系列专栏为Datawhale下开源项目《李宏毅机器学习》决策树的补充内容。作者水平有限，还望学习者批评指正。

我们在李宏毅老师的课中可以看到求解loss function的最小值时，使用的是梯度下降。那现在的问题是，为什么李老师用负梯度方向作为搜索方向，李宏毅老师已经在课中讲到，这里我将对其进行一丢丢的补充

2.目录：

泰勒展开
- 泰勒近似推导
下降方法
- 梯度下降方法

接下来将从上述问题来进行讲解

[外链图片转存失败(img-pmWQ3bXi-1564328065459)(WEBRESOURCE652f05d60964633b2804f0ffca24b9ae)]

3、泰勒展开

泰勒展开是一个用函数在某点的信息描述取值的公式，在已知函数在某一点的各阶导数值的情况下，泰勒展开可以用这些导数值系数构建一个多项式来近似函数子啊这一点的领域中的值

3.1泰勒近似推导

在如图点 $(a, f (a))$ 附近，与曲线 $y = f (x)$ 最近似的直线方程是：曲线上点 $(a, f (a))$ 的切线，切线方程为:
$y = f (a) + f^{'} (a) (x - a)$
这就是f在 $x = a$ 的线性化，右边是次数为1的多项式。如下图给出了曲线 $y = f (x)$ 在x=a的切线，看起来不像是整个曲线的近似

不过，它确实为曲线在 $(a, f (a))$ 附近的近似。事实上，我们把 $(a, f (a))$ 放大，如下图。可以看到，切线与曲线y=f(x)并没有很大的差别，图像放的越大，他们的差别就越小。

[外链图片转存失败(img-zSEw34cV-1564328065460)(19ED9AAA899F468497E12259E286CB4B)]

在点 $(a, f (a))$ 附近，与曲线y=f(x)最近似的二次曲线方程是什么？ (采用相同的函数)
最近似于曲线y=f(x)的二次曲线方程为

$P2(x)=f(a)+f′(a)(x−a)+f′′(a)2(x−a)2P_2(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2}(x-a)^2$
若我们忽视 $P_2(x)$ 方程右边的最后一项，就得到 $f (a) + f^{'} (a) (x - a)$ ，这就变为之前的线性化了。所以可以认为最后的项 $f′′(x)2(x−a)2\frac{f''(x)}{2}(x-a)^2$ 为所谓的二阶修正项。这也意味着我们应该能够找到比切线更好的近似

泰勒近似定理

若f在x=a光滑，则在所有次数为N或更低的多项式中，当x在a附近时，最近似于f(x)的是

$PN(x)=f(a)+f′(a)(x−a)+f′′(a)2!(x−a)2+f(3)(a)3!(x−a)2+...+f(N)(a)N!(x−a)NP_N(x)=f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\frac{f^{(3)}(a)}{3!}(x-a)^2+...+\frac{f^{(N)}(a)}{N!}(x-a)^N$

用求和表示该公式为：

$PN(x)=∑n=0Nf(n)(a)n!(x−a)nP_N(x)=\sum_{n=0}^N\frac{f^{(n)}(a)}{n!}(x-a)^n$

4.下降方法

接下来我们将产生一个优化点列 $x^{(k)}$ ，k=1…，其中

$xt=xt−1+Δxx^t=x^{t-1}+\Delta x$

4.1梯度下降方法

在李宏毅老师的课堂中，想要做的就是最小化loss function，其中 $w, b$ 是要求解的模型参数。梯度下降法常用来求解这种无约束最优化问题，它是一种迭代方法：选取初始值 $w_0,b_0$ ，然后选择 $−▽f(x)-\bigtriangledown f(x)$ 作为搜素方向不断地迭代，更新 $w, b$ 的值，进行损失函数的最小化

将 $f(x^t)$ 在 $x^{t-1}$ 处进行泰勒展开
$f(xt)=f(xt−1+Δx)≈f(xt−1)+f′(xt−1)Δx+f′′(xt−1)Δx22f(x^t)=f(x^{t-1}+\Delta x)\approx f(x^{t-1})+f'(x^{t-1})\Delta x + f''(x^{t-1}) \frac{\Delta x^2}{2}$
那我们也可以将上述写为在机器学习中参数形式，将 $L(w^t)$ 在 $w^{t-1}$ 处进行一阶泰勒展开

$L(w^t)=L(w^{t-1}+w x)$

$L(w^{t-1})+L'(w ^{t-1}) \Delta x$

其中 $Δx\Delta x$ 是微小矢量，它的大小就是“搜索步径(步长)”。 $Δx\Delta x$ 是微小矢量，可表示为 $μδx\mu \delta x$ ，其中 $α\alpha$ 为标量， $δx\delta x$ 为单位向量。将其的代入上式中

$L(wt)=L(wt−1)+L′(wt−1)αδxL(w^t)=L(w^{t-1})+L'(w^{t-1})\alpha \delta x$

对于下降法而言，主要 $w^t$ 不是最优点就成立

$L(w^{t-1})<L(w^t)$
则有

$L′(wt−1)αδx<0L'(w^{t-1})\alpha \delta x <0$

$L′(wt−1)δx<0L'(w^{t-1}) \delta x <0$

可知 $δx\delta x$ 和 $L′(wt−1)L'(w^{t-1})$ 都为向量， $δx\delta x$ 为单位向量， $L′(wt−1)L'(w^{t-1})$ 为当前位置的梯度方向

我们想要是使两个向量的乘积小于0，并且能够达到负最大值。所以 $δx\delta x$ 和 $L′(wt−1)L'(w^{t-1})$ 互为反向。当 $δx\delta x$ 为 $L′(wt−1)L'(w^{t-1})$ (当前梯度)的负方向的时候，能够让 $L′(wt−1)δxL'(w^{t-1}) \delta x$ 尽可能的小。