深度学习优化算法:从理论到实践
1. 高维空间中的局部最小值
在高维参数空间中,对于一个临界点,我们可以从不同的轴对其进行切片分析。在 $d$ 维参数空间里,一个临界点只有在 $d$ 个一维子空间中都表现为局部最小值时,它才是真正的局部最小值。研究发现,随机函数中随机临界点成为局部最小值的概率为 $\frac{1}{3^d}$ 。这意味着,若一个随机函数有 $k$ 个临界点,其局部最小值的期望数量为 $\frac{k}{3^d}$ 。由此可见,随着参数空间维度的增加,局部最小值会变得越来越稀少。
这一结论对深度学习模型的优化有着重要影响。对于随机梯度下降法而言,误差表面的平坦区域虽然会带来一些困扰,但并不妨碍其收敛到一个较好的结果。然而,对于那些试图直接求解梯度为零的点的方法来说,这却是一个严重的问题,这也限制了某些二阶优化方法在深度学习模型中的应用。
2. 梯度方向错误的问题
2.1 梯度与误差表面的关系
在分析深度网络的误差表面时,我们发现优化深度网络的关键挑战在于找到正确的移动轨迹。以二维参数空间的误差表面为例,梯度通常并不是指示正确轨迹的良好指标。只有当等高线为完美圆形时,梯度才会始终指向局部最小值的方向;而当等高线为极椭圆形时(这在深度网络的误差表面中很常见),梯度方向可能与正确方向相差达 90 度。
2.2 梯度变化的量化
为了更深入地理解梯度的变化情况,我们可以通过计算二阶导数来量化梯度在移动过程中的变化。对于参数空间中的每个权重 $w_i$ ,梯度计算 $\frac{\partial E}{\partial w_i}$ ,即误差值随 $w_i$ 的变化率。将所有权重的梯度组
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



