卷积神经网络（五）：SGD、adagrad与RMSprop，梯度下降法总结

最新推荐文章于 2024-09-19 20:36:35 发布

原创最新推荐文章于 2024-09-19 20:36:35 发布 · 2.8k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了随机梯度下降(SGD)、AdaGrad及RMSProp三种优化算法的工作原理及其优缺点。其中，SGD通过计算Minibatch数据进行权值更新；AdaGrad针对每个参数采用独立的学习率，并随迭代逐渐减小；RMSProp则通过加权平方和解决AdaGrad学习率过快衰减的问题。

部署运行你感兴趣的模型镜像

SGD

SGD即随机梯度下降法，在每次更新中，计算一个Minibatch的数据，然后以Minibatch中数据的总损失对神经网络各权值求梯度来进行权值更新，作为训练中的一个step。
更新方程为：

W t + 1, i = W t, i - η g t, i

$W_{t+1,i}=W_{t,i}-ηg_{t,i}$
其中

Wt,iWt,i $W_{t,i}$ 表示第t个step,第i个权值更新前的值，

gt,igt,i $g_{t,i}$ 表示其在第t个step的更新梯度，η表示学习率

adagrad

Adagrad在每一个更新步骤中对于每一个模型参数Wi使用不同的学习速率ηi，

$\newcommand{\FS}[2]{\displaystyle\frac{#1}{#2}} W_{t+1,i}=W_{t,i}-\FS{η}{{\sqrt{\sum_{l=0}^tg_{l,i}^2+e}}}g_{t,i}$

可以看到，式中学习率会除以该权值历史所有梯度的平方根，由于梯度会累加得越来越大，也就可以达到衰减学习率的效果。
其中，e是一个平滑参数，为了使得分母不为0(通常e=1e−8)，另外，如果分母不开根号，算法性能会很糟糕。

其优点很明显，可以使得学习率越来越小，而且每个权值根据其梯度大小不同可以获得自适应的学习率调整。

其缺点在于需要计算参数梯度序列平方和，并且学习速率趋势会较快衰减达到一个非常小的值

RMSprop

为了缓解Adagrad学习率衰减过快，首先当然就是想到降低分子里的平方和项，RMSprop是通过将平方和变为加权平方和，即

r t ， i = P r t - 1, i + (1 - P) g 2 t, i

$r_{t，i}=Pr_{t-1,i}+(1-P)g_{t,i}^2$

也就是说平方和项随着时间不断衰减，过远的梯度将不影响学习率

此时更新公式变为

$\newcommand{\FS}[2]{\displaystyle\frac{#1}{#2}} W_{t+1,i}=W_{t,i}-\FS{n}{{\sqrt{r_{t,i}+e}}}g_{t,i}$

具体描述：

这里写图片描述

您可能感兴趣的与本文相关的镜像

ACE-Step

ACE-Step

音乐合成

ACE-Step

ACE-Step是由中国团队阶跃星辰（StepFun）与ACE Studio联手打造的开源音乐生成模型。它拥有3.5B参数量，支持快速高质量生成、强可控性和易于拓展的特点。最厉害的是，它可以生成多种语言的歌曲，包括但不限于中文、英文、日文等19种语言

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。