7、深度学习优化算法:从理论到实践

深度学习优化算法:从理论到实践

1. 高维非凸优化中的局部极小值问题

在一个 $d$ 维参数空间中,我们可以沿着 $d$ 个不同的轴穿过一个临界点。只有当一个临界点在所有 $d$ 个一维子空间中都表现为局部极小值时,它才是一个真正的局部极小值。研究发现,随机函数中随机临界点成为局部极小值的概率是 $\frac{1}{3^d}$。这意味着,一个具有 $k$ 个临界点的随机函数,其局部极小值的期望数量为 $\frac{k}{3^d}$。随着参数空间维度的增加,局部极小值变得越来越罕见。

这对于深度学习模型的优化意味着什么呢?对于随机梯度下降法来说,目前还不太清楚。误差表面的平坦部分虽然很讨厌,但最终并不会阻止随机梯度下降法收敛到一个较好的解。然而,对于那些试图直接求解梯度为零的点的方法来说,这会带来严重的问题,这也是某些二阶优化方法在深度学习模型中实用性受限的主要原因。

2. 梯度指向错误方向的问题

分析深度网络的误差表面时,我们发现优化深度网络最关键的挑战是找到正确的移动轨迹。以二维参数空间的误差表面为例,梯度通常不是一个很好的指示正确轨迹的指标。只有当等高线是完美的圆形时,梯度才总是指向局部极小值的方向。但对于深度网络的误差表面,等高线通常是非常椭圆的,此时梯度可能与正确方向相差达 90 度!

在任意维度的参数空间中,对于每个权重 $w_i$,梯度计算 $\frac{\partial E}{\partial w_i}$,即改变 $w_i$ 时误差值的变化。综合所有权重,梯度给出了最陡下降方向。但沿着这个方向迈出一大步的问题在于,当我们移动时,梯度可能会发生变化。

为了量化梯度在我们移动时的变化情况,我们可以计算二阶导

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值