【总结最优化中常见的优化方法-SGD\牛顿法等等】

本文总结了机器学习中最常见的优化算法,包括梯度下降法及其变种如SGD、Momentum、Adagrad等,详细介绍了每种方法的核心思想与应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文章:
1.六种常见梯度下降方式及其实现
2.一文看懂常用的梯度下降算法

个人总结:

1. 梯度下降法

核心:沿梯度反方向寻找最优解
1.SGD(随机梯度下降):随机意味着梯度由一个样本决定,每次随机选取一个样本计算损失;
2.全量梯度下降:计算所有样本的损失;
3.批量梯度下降:每次计算一个 batch 样本的损失

2. Momentum

核心:在梯度下降的基础上考虑了历史信息

3. 牛顿法

核心:通过二阶导数与X轴的交点逐渐逼近最优解
补充:拟牛顿法是在其基础上将难求解的海塞矩阵的逆矩阵进行了近似替换

4. Adagrad

核心:将不同参数的学习率自适应
将每一个参数的每一次迭代的梯度取平方,然后累加并开方得到 r,最后用全局学习率除以 r,作为学习率的动态更新。

5. AdaDelta

核心:对Adagrad的计算进行了简化

6. RMSProp

核心:在Adagrad的基础上,将累加方式改为指数加权平均(更在意近期梯度)

7. Adam

核心:既考虑历史梯度由将学习率自适应
补充:其本质上是Momentum和RMSprop两个方法的结合

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值