25、深度友好的梯度下降策略及二阶导数方法解析

最新推荐文章于 2025-12-21 23:44:06 发布

silver

最新推荐文章于 2025-12-21 23:44:06 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏：神经网络与深度学习精解文章标签：深度学习梯度下降 RMSProp

本文链接：https://blog.youkuaiyun.com/silver/article/details/151054517

神经网络与深度学习精解专栏收录该内容

83 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度友好的梯度下降策略及二阶导数方法解析

在深度学习的优化过程中，为了更有效地训练模型，有多种梯度下降策略和二阶导数方法可供选择。这些方法各有特点，适用于不同的场景。下面将详细介绍一些常见的方法。

1. RMSProp算法

RMSProp 算法是一种改进的梯度下降策略。它通过对每个参数的梯度进行指数平均，来调整学习率。设 $A_i$ 为第 $i$ 个参数 $w_i$ 的指数平均平方梯度值，其更新公式为：
[A_i \Leftarrow \rho A_i + (1 - \rho) \left(\frac{\partial L}{\partial w_i}\right)^2 ; \forall i]
其中，$\rho$ 是衰减参数，$\frac{\partial L}{\partial w_i}$ 是损失函数 $L$ 对参数 $w_i$ 的偏导数。

使用每个参数的 $A_i$ 的平方根来归一化其梯度，然后使用以下公式更新参数：
[w_i \Leftarrow w_i - \frac{\alpha}{\sqrt{A_i}} \left(\frac{\partial L}{\partial w_i}\right) ; \forall i]
为了避免病态条件，可以在分母中使用 $\sqrt{A_i + \epsilon}$ 代替 $\sqrt{A_i}$，其中 $\epsilon$ 是一个小的正值，如 $10^{-8}$。

RMSProp 相对于 AdaGrad 的一个优点是，陈旧梯度的重要性会随时间呈指数衰减。此外，它还可以在计算算法中结合动量的概念。不过，RMSProp 的缺点是，二阶矩的运行估计 $A_i$ 在早期迭代中存在