【优化算法】梯度之上：基于 Jacobian 和 Hessian 矩阵的优化算法

最新推荐文章于 2024-07-24 07:45:00 发布

原创

最新推荐文章于 2024-07-24 07:45:00 发布 · 2.5k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#optimization #Jacobian #Hessian

本文探讨了一阶优化算法的局限性，并详细介绍了如何利用二阶导数，特别是Jacobian矩阵和Hessian矩阵，来改进优化效果。通过分析二阶导数的意义，解释了它们如何反映函数的曲率和加速度。文章讨论了在梯度下降法中，二阶导数信息如何帮助预测优化步长的选择，并解释了如何通过Hessian矩阵的特征值判断临界点的性质。此外，还提到了Hessian矩阵的条件数在多维优化中的重要性以及优化算法在深度学习领域的应用挑战。

上篇说的，仅仅基于梯度的优化算法称为 一阶优化算法(first-order optimization algorithms), 比如最典型的梯度下降法；很多时候，仅仅使用一阶的梯度信息效果是不够优良的，还需要考虑梯度的梯度，也就是 二阶优化算法(second-order optimization algorithms), 二阶优化算法基于的是 Hessian 矩阵，比较典型的方法如牛顿法。

先来回顾一下梯度，Jacobian 矩阵和 Hessian 矩阵的关系。开始！
二阶导数(second derivative),即导数的导数，表达的是一阶导数如何随着输入的变化而变化。一阶导数，表征的是曲线的斜率，同理我们可以认为二阶导数，表征的是曲线(或曲面)的曲率. 借助物理来理解，就是函数表征的是位移和时间的对应关系，一阶导数就是速度，二阶导数就是加速度。

对于一个一次函数而言，比如 $y = kx$ , 其一阶导数就是常数 $k$ , 而二阶导数就是 $0$ , 或者说匀速直线运动，速度恒定，没有加速度。
对于一个二次函数而言，比如自由落体运动 $y = 1 \over 2 gx^2$ , 其一阶导数就是 $xt$ , 二阶导数就是常数 $g$ , 也就是说有随 $x$ 变化的斜率和固定的曲率，或者说有固定的加速度然后有随时间变化的速度。

回到优化算法中，我们之前使用的梯度下降法，相当于以当前的速度匀速直线前进一个 $\delta x$ 时间，作为估计的 $\hat y$ , 当然这个和真实的 $y$ 肯定是有差距的。二阶导数信息就可以用来预知这个差距的大小：

如果二阶导数/曲率 为 , 也就是没有加速度，匀速直线运动，那么我们用梯度进行预测就是很准确的。
- 如果二阶导数/曲率 为负，也就是减速运动，那么我们用梯度进行预测的值就会比真实值大。
- 如果二阶导数/曲率 为正，也就是加速运动，那么我们用梯度进行预测的值就会比真实值小。
- 对于多元函数，二阶函数有很多，我们将这些导数合并成为 Hessian 矩阵。由于微分算子在任何二阶偏导连续的点处都可以交换，因此 Hessian 矩阵在这些点上是对称的。在深度学习背景中，我们遇到的大多数的 Hessian 矩阵基本都是对称的。而由于Hessian 矩阵是实对称的，我们可以将其分解为一组实特征值和一组特征向量的正交基。那么在特定方向 $d$ 上的二阶导数就可以写成 $d^THd$ 。当 $d$ 是 $H$