题目
Adam优化算法是一种自适应学习率的优化算法,其计算步骤如下:
- 初始化参数
m 0 = 0 , v 0 = 0 , t = 0 m_0 = 0, \quad v_0 = 0, \quad t = 0 m0=0,v0=0,t=0 - 计算梯度
g t = ∇ f ( x t ) g_t = \nabla f(x_t) gt=∇f(xt) - 更新动量
m t = β 1 m t − 1 + ( 1 − β 1 ) g t m t = m t / ( 1 − β 1 t ) m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t m_t = m_t / (1 - \beta_1^t) mt

最低0.47元/天 解锁文章
595

被折叠的 条评论
为什么被折叠?



