7、深度学习优化算法：从理论到实践-优快云博客

本文链接：https://blog.youkuaiyun.com/github5actions/article/details/154597915

深度学习优化算法：从理论到实践

1. 高维空间中的局部最小值

在高维参数空间中，对于一个临界点，我们可以从不同的轴对其进行切片分析。在 $d$ 维参数空间里，一个临界点只有在 $d$ 个一维子空间中都表现为局部最小值时，它才是真正的局部最小值。研究发现，随机函数中随机临界点成为局部最小值的概率为 $\frac{1}{3^d}$ 。这意味着，若一个随机函数有 $k$ 个临界点，其局部最小值的期望数量为 $\frac{k}{3^d}$ 。由此可见，随着参数空间维度的增加，局部最小值会变得越来越稀少。

这一结论对深度学习模型的优化有着重要影响。对于随机梯度下降法而言，误差表面的平坦区域虽然会带来一些困扰，但并不妨碍其收敛到一个较好的结果。然而，对于那些试图直接求解梯度为零的点的方法来说，这却是一个严重的问题，这也限制了某些二阶优化方法在深度学习模型中的应用。

2. 梯度方向错误的问题

2.1 梯度与误差表面的关系

在分析深度网络的误差表面时，我们发现优化深度网络的关键挑战在于找到正确的移动轨迹。以二维参数空间的误差表面为例，梯度通常并不是指示正确轨迹的良好指标。只有当等高线为完美圆形时，梯度才会始终指向局部最小值的方向；而当等高线为极椭圆形时（这在深度网络的误差表面中很常见），梯度方向可能与正确方向相差达 90 度。