深度友好的梯度下降策略及二阶导数方法解析
在深度学习的优化过程中,为了更有效地训练模型,有多种梯度下降策略和二阶导数方法可供选择。这些方法各有特点,适用于不同的场景。下面将详细介绍一些常见的方法。
1. RMSProp算法
RMSProp 算法是一种改进的梯度下降策略。它通过对每个参数的梯度进行指数平均,来调整学习率。设 $A_i$ 为第 $i$ 个参数 $w_i$ 的指数平均平方梯度值,其更新公式为:
[A_i \Leftarrow \rho A_i + (1 - \rho) \left(\frac{\partial L}{\partial w_i}\right)^2 ; \forall i]
其中,$\rho$ 是衰减参数,$\frac{\partial L}{\partial w_i}$ 是损失函数 $L$ 对参数 $w_i$ 的偏导数。
使用每个参数的 $A_i$ 的平方根来归一化其梯度,然后使用以下公式更新参数:
[w_i \Leftarrow w_i - \frac{\alpha}{\sqrt{A_i}} \left(\frac{\partial L}{\partial w_i}\right) ; \forall i]
为了避免病态条件,可以在分母中使用 $\sqrt{A_i + \epsilon}$ 代替 $\sqrt{A_i}$,其中 $\epsilon$ 是一个小的正值,如 $10^{-8}$。
RMSProp 相对于 AdaGrad 的一个优点是,陈旧梯度的重要性会随时间呈指数衰减。此外,它还可以在计算算法中结合动量的概念。不过,RMSProp 的缺点是,二阶矩的运行估计 $A_i$ 在早期迭代中存在
超级会员免费看
订阅专栏 解锁全文
12

被折叠的 条评论
为什么被折叠?



