深度学习中所有的优化器的详细介绍与列表化对比分析

原创于 2020-09-08 17:26:54 发布 · 1.7k 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文对比分析了多种深度学习优化算法，包括SGD、Adadelta等，从速度、鲁棒性及学习率自适应性等方面进行了详细解析，揭示了各种优化器的特点与适用场景。

部署运行你感兴趣的模型镜像

目录

1. 逐个介绍优化器：

2. 不同优化器方法的宏观对比分析

2.1 在分析中的参数命名

2.2 不同优化器的列表对比分析

2.3 不同优化器的可视化对比分析

之前对各个优化器理解的不是特别清晰，最近通过分析，列出一个表格来对比他们之间的异同点。

首先通过列表的方式逐个介绍每个优化器，并做出评价。然后再汇总所有优化器，进行宏观上的比较。

因为公式较多，所以我在word上先编辑好，然后截图过来。

以下文件的下载路径：深度学习优化算法介绍汇总与对比分析.rar 或优化算法汇总与对比分析.rar。两者内容一致，前者包含pdf,excel,word, 后者仅仅包含pdf文件。

1. 逐个介绍优化器：

文中的符号表示与优化器原论文中不同，主要为了保持本综述的符号一致性。而且，个人认为，更便于接受。

其中，Adabound我还没有进行仔细分析。以下是该算法流程的放大图：

2. 不同优化器方法的宏观对比分析

2.1 在分析中的参数命名

2.2 不同优化器的列表对比分析

先表达最终结论：

所有优化器都可以看作是对最基本的SGD的优化，优化的思路主要有三个：

a)用梯度的一阶动量代替梯度作为增量的基量，提升优化算法的速度与鲁棒性。
b)用梯度的二阶动量或∞范数动量对学习率进行自适应化，使不同参数有不同的学习率。
c)用增量的二阶动量代替学习率基量，取消对学习率超参数的依赖，并使学习率大小与当前参数的大小量级匹配。

具体汇总分析如下：

2.3 不同优化器的可视化对比分析

1. 不同优化器的优化速度比较。SGD最慢，Adadelta最快，动量法会走一些弯路。

2. 遇到鞍点时不同优化器的反应。SGD会被困于鞍点，动量法会在鞍点耽误较长时间。Adadelta脱离速度最快，优化也最快。Rmsprop次之。

3. 动量对梯度下降的影响

注：后面的动画引用自：https://ruder.io/optimizing-gradient-descent/

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。