梯度下降算法：Hessian 矩阵与学习率的关系

最新推荐文章于 2025-09-10 08:42:29 发布

原创最新推荐文章于 2025-09-10 08:42:29 发布 · 3.1k 阅读

3 ·

CC 4.0 BY-SA版权

我们不生产知识，我们只是互联网的搬运工

机器学习同时被 3 个专栏收录

136 篇文章

订阅专栏

深度学习

55 篇文章

订阅专栏

优化问题

32 篇文章

订阅专栏

本文探讨了在机器学习中使用二阶泰勒展开来近似函数，并分析了学习率（步长）如何影响函数下降的速度。通过考虑函数的斜率和曲率，我们能够理解不同条件下学习率的选择策略，以及Hessian矩阵特征值如何决定最优学习率的量级。

在当前点 $x_0$ 处做二阶泰勒展开：
$\approx f(x_0) + (x-x_0)^T g + \frac{1}{2}(x-x_0)^T H (x-x_0)$ 其中 $g$ 是梯度， $H$ 是 $x_0$ 点的 Hessian 矩阵。

如果设定学习率（步长）为 $ϵ\epsilon$ , 则 $x=x0−ϵgx=x_0 - \epsilon g$ 上式变成
$f(x0−ϵg)≈f(x0)+ϵgTg+12ϵ2gTHgf(x_0-\epsilon g) \approx f(x_0) + \epsilon g^T g + \frac{1}{2}\epsilon^2 g^T Hg$
其中有3 项：函数的原始值、函数斜率导致的预期改善、函数曲率导致的校正。

在这里插入图片描述
从上图可以看出，我们使用沿负梯度方向大小为 $ϵ\epsilon$ 的下降步，假设当前点梯度是1。如果不考虑函数曲率导致的校正：

如果二阶导数是0，代价函数将下降 $ϵ\epsilon$ 。
如果二阶导数是负的，函数曲线向下凹陷(向上凸出)，因此代价函数将下降的比 $ϵ\epsilon$ 多。
如果二阶导数是正的，函数曲线是向上凹陷(向下凸出)，因此代价函数将下降的比 $ϵ\epsilon$ 少。

当 $g^THg$ 为零或负时，近似的泰勒级数表明增加 $ϵ\epsilon$ 将永远使 $f (x)$ 下降。在实践中，泰勒级数不会在 $ϵ\epsilon$ 大的时候也保持准确，因此在这种情况下我们必须采取更启发式的选择。当 $g^THg$ 为正时，通过计算可得，使近似泰勒级数下降最多的最优步长为
$ϵ∗=gTggTHg\epsilon^* = \frac{g^Tg}{g^THg}$
Hessian 的特征值决定了最优学习率的量级。

因为
$λmin(H)≤gTHggTg≤λmax(H)\lambda_{min}(H) \leq \frac{g^THg}{g^Tg} \leq \lambda_{max}(H)$ 所以
$1λmax≤ϵ∗≤1λmin\frac{1}{\lambda_{max}}\leq \epsilon^* \leq \frac{1}{\lambda_{min}}$