7、深度学习优化算法:从理论到实践

深度学习优化算法:从理论到实践

1. 高维空间中的局部最小值

在高维参数空间中,对于一个临界点,我们可以从不同的轴对其进行切片分析。在 $d$ 维参数空间里,一个临界点只有在 $d$ 个一维子空间中都表现为局部最小值时,它才是真正的局部最小值。研究发现,随机函数中随机临界点成为局部最小值的概率为 $\frac{1}{3^d}$ 。这意味着,若一个随机函数有 $k$ 个临界点,其局部最小值的期望数量为 $\frac{k}{3^d}$ 。由此可见,随着参数空间维度的增加,局部最小值会变得越来越稀少。

这一结论对深度学习模型的优化有着重要影响。对于随机梯度下降法而言,误差表面的平坦区域虽然会带来一些困扰,但并不妨碍其收敛到一个较好的结果。然而,对于那些试图直接求解梯度为零的点的方法来说,这却是一个严重的问题,这也限制了某些二阶优化方法在深度学习模型中的应用。

2. 梯度方向错误的问题

2.1 梯度与误差表面的关系

在分析深度网络的误差表面时,我们发现优化深度网络的关键挑战在于找到正确的移动轨迹。以二维参数空间的误差表面为例,梯度通常并不是指示正确轨迹的良好指标。只有当等高线为完美圆形时,梯度才会始终指向局部最小值的方向;而当等高线为极椭圆形时(这在深度网络的误差表面中很常见),梯度方向可能与正确方向相差达 90 度。

2.2 梯度变化的量化

为了更深入地理解梯度的变化情况,我们可以通过计算二阶导数来量化梯度在移动过程中的变化。对于参数空间中的每个权重 $w_i$ ,梯度计算 $\frac{\partial E}{\partial w_i}$ ,即误差值随 $w_i$ 的变化率。将所有权重的梯度组

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值