深度学习优化算法:挑战与解决方案
在深度学习模型的优化过程中,我们面临着诸多挑战。下面将深入探讨这些挑战以及相应的解决方案。
高维非凸优化中的局部极小值问题
在 d 维参数空间中,一个临界点在每个一维子空间中都呈现为局部极小值时,它才是真正的局部极小值。根据相关理论,随机函数中随机临界点为局部极小值的概率是 1/3d。这意味着,随着参数空间维度的增加,局部极小值会变得极其罕见。
对于随机梯度下降法而言,误差表面的平坦段虽有些麻烦,但并不妨碍其收敛到一个较好的结果。然而,对于那些试图直接求解梯度为零的点的方法来说,这就成了严重的问题,这也限制了某些二阶优化方法在深度学习模型中的应用。
梯度指向错误方向的问题
分析深度网络的误差表面时,我们发现找到正确的移动轨迹是优化深度网络的关键挑战。以二维参数空间的误差表面为例,只有当等高线是完美圆形时,梯度才会始终指向局部极小值的方向。而在深度网络中,等高线通常是极度椭圆形的,此时梯度可能与正确方向偏差达 90 度。
我们可以通过计算二阶导数来量化梯度在我们移动时的变化情况。将这些信息整合到一个特殊的矩阵中,即 Hessian 矩阵(H)。当描述在最陡下降方向移动时梯度发生变化的误差表面时,这个矩阵被认为是病态的。
对于数学基础较好的读者,我们可以进一步探讨 Hessian 矩阵对纯梯度下降优化的限制。利用 Hessian 矩阵的一些性质,我们可以高效地确定在特定方向上的二阶导数。通过泰勒级数的二阶近似,我们可以了解从当前参数向量 x(i) 沿着梯度向量 g 移动到新参数向量 x 时,误差函数的变化情况:
[E(x) \approx E(x^{(i)}) + (x
深度学习优化算法解析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



