通俗理解-梯度下降法（一）- 数学基础

最新推荐文章于 2025-12-01 14:39:49 发布

原创最新推荐文章于 2025-12-01 14:39:49 发布 · 7.8k 阅读

48 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #优化算法

机器学习专栏收录该内容

3 篇文章

订阅专栏

本文深入解析梯度下降法，一种用于求解无约束优化问题的一阶优化方法。重点介绍了导数、偏导数和方向导数的概念，以及它们如何帮助确定函数在某一点的最大变化率，即梯度。最后，通过沿着负梯度方向减小函数值，实现优化目标。

什么是梯度下降

梯度下降法（gradient descent）是一种常见的一阶（first-order）优化方法，是求解无约束优化问题最简单、最经典的方法之一。所谓的一阶方法就是仅使用目标函数的一阶导数，不利用其高阶导数。

那什么是无约束优化问题呢？举个例子，在一元函数法f(x)的图像中，求无约束最优化问题，即不对定义域或值域做任何限制的情况下，求解函数f(x)的最小值。没有理解，没事儿，本文最后会重新探讨这个问题。

梯度下降方法的重点是理解，导数（derivative）、偏导数（partial derivative）和方向导数（directional derivative）这三个概念。

回忆一下高数中微积分的经典图片：

我们定义一下导数：

dx：x的变化量趋于0时，则记作微元dx。

Δy：Δy=f(x0+Δx)-f(x0)，是函数的增量；

dy：dy=f’(x0)dx，是切线的增量；

其中，dy/dx中的d是微小增量的意思，即微小的增量y处以微小增量x，在函数中是微分的意思。也就是y=f(x)在x0处的斜率。

当Δx→0时，dy与Δy都是无穷小，dy是Δy的主部，即Δy=dy+o(Δx).

导数反应的是函数y=f(x)在从x轴某一点处沿着x轴正方向上的变化率或变化趋势。举个例子，在x轴某一点处，如果f’(x)>0，说明f(x)的函数值在x点沿x轴正方向是趋于增加的；反之，如果f’(x)<0，说明f(x)的函数值在x点沿x轴正方向是趋于减小的。

再来看偏导数的定义：

导数与偏导数本质是一致的，都是当自变量的变化量趋于0时，函数值的变化量与自变量变化量比值的极限。直观地说，偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

偏导数 f'x(x0,y0) 表示固定面上一点对 x 轴的切线斜率；偏导数 f'y(x0,y0) 表示固定面上一点对 y 轴的切线斜率。

高阶偏导数：如果二元函数 z=f(x,y) 的偏导数 f'x(x,y) 与 f'y(x,y) 仍然可导，那么这两个偏导函数的偏导数称为 z=f(x,y) 的二阶偏导数。二元函数的二阶偏导数有四个：f"xx，f"xy，f"yx，f"yy。

x方向的偏导

设有二元函数 z=f(x,y) ，点(x0,y0)是其定义域D 内一点。把 y 固定在 y0而让 x 在 x0 有增量 △x ，相应地函数 z=f(x,y) 有增量（称为对 x 的偏增量）△z=f(x0+△x,y0)-f(x0,y0)。

如果 △z 与 △x 之比当 △x→0 时的极限存在，那么此极限值称为函数 z=f(x,y) 在 (x0,y0)处对 x 的偏导数，记作 f'x(x0,y0)或。函数 z=f(x,y) 在(x0,y0)处对 x 的偏导数，实际上就是把 y 固定在 y0看成常数后，一元函数z=f(x,y0)在 x0处的导数。

y方向的偏导同理。

接下来是方向导数的定义：