【总结最优化中常见的优化方法-SGD\牛顿法等等】

EthanXRF

于 2022-09-19 22:40:32 发布

阅读量344

点赞数

文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/qq_43075378/article/details/126943292

版权

本文总结了机器学习中最常见的优化算法，包括梯度下降法及其变种如SGD、Momentum、Adagrad等，详细介绍了每种方法的核心思想与应用场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总结最优化中常见的优化方法-SGD\牛顿法等等

个人总结：

参考文章：
1.六种常见梯度下降方式及其实现
 2.一文看懂常用的梯度下降算法

个人总结：

1. 梯度下降法

核心：沿梯度反方向寻找最优解
1.SGD（随机梯度下降）：随机意味着梯度由一个样本决定，每次随机选取一个样本计算损失；
2.全量梯度下降：计算所有样本的损失；
3.批量梯度下降：每次计算一个 batch 样本的损失

2. Momentum

核心：在梯度下降的基础上考虑了历史信息

3. 牛顿法

核心：通过二阶导数与X轴的交点逐渐逼近最优解
补充：拟牛顿法是在其基础上将难求解的海塞矩阵的逆矩阵进行了近似替换

4. Adagrad

核心：将不同参数的学习率自适应
将每一个参数的每一次迭代的梯度取平方，然后累加并开方得到 r，最后用全局学习率除以 r，作为学习率的动态更新。

5. AdaDelta

核心：对Adagrad的计算进行了简化

6. RMSProp

核心：在Adagrad的基础上，将累加方式改为指数加权平均（更在意近期梯度）

7. Adam

核心：既考虑历史梯度由将学习率自适应
补充：其本质上是Momentum和RMSprop两个方法的结合

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

EthanXRF

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

采用附加动量法和自适应学习率设计来改进bp神经网络的迭代速度，如果不迭代学习率会提高精度；迭代学习率（自适应）会加快收敛，但精度降低（Matlab代码实现）

weixin_46039719的博客

11-03

630

神经网络常见的几种最优化方法（梯度下降法，牛顿法，拟牛顿法，共轭梯度法等）

07-10

9421

梯度：有时候也称之为斜度，也就是一个曲面沿着给定方向的倾斜程度。表示某一个函数在该点出的方向导数沿着该方向取得最大值，即函数在该点出沿着该方向（此梯度方向）变化最快，变化率最大。梯度下降法是最早最简单，也是最为常用的最优化方法。梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值.

1 条评论您还未登录，请先登录后发表或查看评论

【总结】6种机器学习中的优化算法：SGD,牛顿法,SGD-M,AdaGrad,AdaDelta,Adam

鱼大

03-06

5556

本文一共介绍6种机器学习中的优化算法： 1.梯度下降算法（SGD） 2.牛顿法 3.SGD-M 4.AdaGrad 5.AdaDelta 6.Adam 1.梯度下降算法（SGD）用梯度下降算法最小化目标函数f(x)，梯度下降算法沿着梯度向量的反方向进行迭代以得到函数的极值点。参数迭代公式：其中，γ为学习率，参数初始值为x0,即起始位置。设置迭代停止条件： 1....

最优化算法总结（批量梯度下降【BGD】，随机梯度下降【SGD】），牛顿法，拟牛顿法）

Lao男孩的博客

06-17

608

最优化算法总结 最优化方法主要有：梯度下降（批量梯度下降【BGD】，随机梯度下降【SGD】），牛顿法，拟牛顿法 当目标函数是凸函数时，梯度下降每次求解是全局解，其解不保证全局最优解 每次通过求导找出梯度方向（负梯度方向作为搜索方向），其越接近目标值，步长越小，前进越慢，批梯度下降每次取全量的样本进行计算梯度，然后进行参数的更新 SGD相比BGD其每次随机采样一部分样本进行梯度计算，这样样本的偏差和噪声对于模型影响会比较大，但是因为每次不用取全量的样本计算梯度，所以收敛速度相比BGD提升很多梯度下降缺点

SGD和牛顿法的区别

qq_40415753的博客

10-24

671

梯度下降法是最早最简单，也是最为常用的最优化方法。梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。梯度下降法的搜索迭代示意图如下图所示： ...

深度学习中的优化算法之SGD

网络资源是无限的

04-03

1万+

之前在https://blog.youkuaiyun.com/fengbingchun/article/details/75351323 介绍过梯度下降，常见的梯度下降有三种形式：BGD、SGD、MBGD，它们的不同之处在于我们使用多少数据来计算目标函数的梯度。大多数深度学习算法都涉及某种形式的优化。优化指的是改变x以最小化或最大化某个函数f(x)的任务。我们通常以最小化f(x)指代大多数最优化问题。我们把要最小化或最大化的函数称为目标函数(objective function)或准则(cr...

最优化方法课程：牛顿法与共轭梯度法解析

除了上述提到的三种优化方法外，最优化方法还包括但不限于拟牛顿法（如DFP、BFGS）、线搜索方法（如黄金分割法、回溯线搜索）、梯度下降法、随机梯度下降法（SGD）及其变种（如带动量的SGD、Nesterov加速梯度法）等...

基于LR的优化方法：梯度下降法，随机梯度下降法，牛顿法，LBFGS，BFGS.zip

热门推荐

余昌黔|书山有路

08-24

6万+

前言（标题不能再中二了）本文仅对一些常见的优化方法进行直观介绍和简单的比较，各种优化方法的详细内容及公式只好去认真啃论文了，在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不

牛顿法和SGD求解方程的理解和简单实现

Woody0729的博客

03-08

1314

最近小伙伴面试的时候,好多面试官都会问给定一个方程如何求解? 比如x + sinx + 1 = 0的, 小伙伴们大多都回答的用牛顿法或者用随机梯度下降, 当然面试官会问原理....牛顿法和SGD作为最常见优化方法平时总是听到,也略知一二,除了在数值分析这门课上手动推过之后,再也没仔细研究过,平时用tensorflow都是自动优化的,所以我简单用实现了这两个优化方法加深理解.先说牛顿法, 牛顿法是求...

梯度下降法与牛顿法

SimpleIsBetter

08-13

1801

1 梯度下降法梯度下降法（gradient descent：GD）梯度：f(θ)f(\theta)在θ0\theta_{0}处的梯度表示f(θ)f(\theta)在点θ0\theta_{0}处函数值变化最快的方向。对于凸函数f(θ)f(\theta)来说，沿着负梯度方向寻找可以找到函数的极小值 θk+1=θk−ηf′(θk)\theta^{k+1}=\theta^{k}-\eta f'(\th

梯度法（SGD）、拟牛顿法（LBFGS）与共轭梯度法（CG）

小刀的专栏

07-14

1万+

一、基本原理梯度法：由一阶泰勒级数展开式，f(x+dx) = f(x) + sum(i,df/dx(i)*dx(i)) + r(x,dx)。其中r(x,dx)为余项，当dx很小时，可忽略余项。推倒得迭代：x=x+dx=x-miu*dfx。优点：可收敛于一个极小值点。缺点：收敛速度慢，在梯度值小时尤为明显。学习率miu需要依据经验赋值。 牛顿法：由二阶泰勒级数

梯度下降法和牛顿法的总结与比较

weixin_30363509的博客

05-08

1590

机器学习的本质是建立优化模型，通过优化方法，不断迭代参数向量，找到使目标函数最优的参数向量。最终建立模型通常用到的优化方法：梯度下降方法、牛顿法、拟牛顿法等。这些优化方法的本质就是在更新参数。一、梯度下降法　　0、梯度下降的思想 ·　　　　通过搜索方向和步长来对参数进行更新。其中搜索方向是目标函数在当前位置的负梯度方向。因为这个方向是最快的下降方向。步长确定了沿着这个搜索方向下降的大...

机器学习中梯度下降法和牛顿法的比较

njustzj001的专栏

08-10

2万+

在机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中，一般用改良的梯度下降法，也可以用牛顿法。由于两种方法有些相似，我特地拿来简单地对比一下。下面的内容需要读者之前熟悉两种算法。梯度下降法梯度下降法用来求解目标函数的极值。这个极值是给定模型给定数据之后在参数空间中搜索找到的。迭代过程为：可以看出，梯度下降法更新参数

牛顿法与拟牛顿法

wolfrevoda的专栏

07-21

1万+

牛顿法求函数的根牛顿法的最初提出是用来求解方程的根的。我们假设点x∗x^*为函数f(x)f(x)的根，那么有f(x∗)=0f(x^*) = 0。现在我们把函数f(x)f(x)在点xkx_k处一阶泰勒展开有：f(x)=f(xk)+f′(xk)(x−xk)f(x) = f(x_k) + f'(x_k)(x-x_k)那么假设点xk+1x_{k+1}为该方程的根，则有f(xk+1)=f(xk)+f′(xk)

斯坦福cs231n学习笔记（11）------神经网络训练细节（梯度下降算法大总结/SGD/Momentum/AdaGrad/RMSProp/Adam/牛顿法）

huplion的专栏

01-28

2万+

神经网络训练细节系列笔记：神经网络训练细节（激活函数）神经网络训练细节（数据预处理、权重初始化）神经网络训练细节（Batch Normalization）神经网络训练细节（训练过程，超参数优化）通过学习，我们知道，因为训练神经网络有个过程: Sample 获得一批数据； Forward 通过计算图前向传播，获得loss； Backprop 反向传播计算梯度，这个梯度能告诉我