优化算法optimization：AdaDelta

最新推荐文章于 2025-03-05 17:44:01 发布

原创最新推荐文章于 2025-03-05 17:44:01 发布 · 518 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#优化算法 #神经网络 #adadelta

Neural Network 专栏收录该内容

22 篇文章

订阅专栏

本文介绍了AdaDelta算法的提出背景，针对AdaGrad在迭代后期的学习困难。它通过无需手动设置学习率的自适应过程，利用指数加权移动平均和额外的Δxt变量，提供一种更稳定的优化策略。理解并实现这一算法有助于提升深度学习模型训练的效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AdaDelta算法

提出动机

除了RMSProp算法以外，AdaDelta算法的提出也是为了解决AdaGrad算法在迭代后期较难找到有用解的问题。

算法

AdaDelta算法也像RMSProp算法一样，使用了小批量随机梯度 $g_t$ 按元素平方的指数加权移动平均变量 $s_t$ ，这里的 $\rho$ 类似RMSProp中的 $\gamma$ 。但有意思的是，AdaDelta算法没有学习率这一超参数。另外，AdaDelta算法还维护一个额外的状态变量 $\Delta x_t$ ，其元素同样在时间步0时被初始化为0。

对每次迭代做如下改动
$s_t = \rho s_{t-1} + (1-\rho) g_t \circ g_t \\\\ g_t' = \sqrt{\frac{\Delta x_{t-1}+\epsilon}{s_t+\epsilon}} \circ g_t\\\\ x_t = x_{t-1} - g_t' \\\\ \Delta x_{t} = \rho \Delta x_{t-1} + (1-\rho) g_t' \circ g_t'$
可以看到，如不考虑 $\epsilon$ 的影响，AdaDelta算法与RMSProp算法的不同之处在于使用 $\sqrt{\Delta x_{t−1}}$ 来替代超参数 $\eta$ 。 $\rho$ 的取值一般在 $[0.9, 0.99]$ 。

代码实现

def init_adadelta_states(dim=2):
    s_w = np.zeros((dim, 1))
    s_b = np.zeros(1)
    delta_w = np.zeros((dim, 1))
    delta_b = np.zeros(1)
    return (s_w, delta_w), (s_b, delta_b)

def adagrad(params, states, hyperparams, eps=1e-5):
    rho = hyperparams['rho']
    for p, (s,delta) in zip(params, states):
        s[:] += rho * s + (1 - rho) * p.grad * p.grad
        g = (math.sqrt(delta + eps) / (math.sqrt(s + eps)) * p.grad
        p[:] -= g
        delta[:] = rho * delta + (1 - rho) * g * g

Reference

Dive Into Deep Learning，第7章