神经网络关于优化器的选择问题(Optimizer)

本文深入探讨了深度学习中的优化器选择,包括批量梯度下降(BGD)、随机梯度下降(SGD)、小批量梯度下降(MBGD)及其优缺点。针对训练过程中的挑战,文章介绍了Momentum和Nesterov Accelerated Gradient优化器,以及Adagrad、RMSProp和Adam等自适应学习率方法,帮助提高模型训练效率和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

最近在优化自己的循环神经网络时,用到了很多优化算法,所以在这里梳理一下,也算是总结。

关于优化器:
其实机器学习训练过程中的本质就是在最小化损失,而在我们定义了损失函数后,优化器就派上了用场,在深度学习中,我们通常就是对于梯度优化,优化的目标就是网络模型里的参数θ(是一个集合,θ1、θ2、θ3 ……)。
(我们设,一般的线形回归函数的假设函数是:
这里写图片描述
对应的损失函数是:
这里写图片描述

**

1. 常见的三个优化器(BGD,SGD,MBGD)

**

(1): Batch Gradient Descent (BGD)
批量梯度下降法,也是梯度下降法最基础的形式,算法的思想是在更新每个参数的时,都使用所有样本进行更新:
数学形式如下:
这里写图片描述
上述也说到了,批量梯度下降每迭代一步,是需要用到训练集的所有数据,如果样本数目很大,速度就会很慢,所有随机梯度下降(SGD)也就顺理成章的引入。
所以关于BGD的优缺点总结如下:
优点:全局最优解;易于并行实现;从跌代次数上来说,BGD
的迭代次数比较少。
缺点:当样本数目很多时,训练过程会很慢

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值