基于梯度的优化方法(梯度下降法)

本文介绍了深度学习中常用的三种梯度下降法:批量梯度下降法、随机梯度下降法和小批量梯度下降法,并探讨了它们各自的优点和缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大多数深度学习的算法多涉及某种形式的优化。优化指的是改变x以最小化或者最大化某个函数f(x)的任务。我们把最大化或者最小化的函数叫做目标函数(objection function)我们对其进行最小化时,也把它称为代价函数(cost function)或损失函数(loss function)或误差函数(error function)

梯度下降法分类
1. 批量梯度下降法 :
批量梯度下降法(Batch Gradient Descent,简称BGD)是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新。
2. 随机梯度下降法:
由于批量梯度下降法在更新每一个参数时,都需要所有的训练样本,所以训练过程会随着样本数量的加大而变得异常的缓慢。随机梯度下降法(Stochastic Gradient Descent,简称SGD)正是为了解决批量梯度下降法这一弊端而提出的。
3. 小批量梯度下降法:
有上述的两种梯度下降法可以看出,其各自均有优缺点,那么能不能在两种方法的性能之间取得一个折衷呢?即,算法的训练过程比较快,而且也要保证最终参数训练的准确率,而这正是小批量梯度下降法(Mini-batch Gradient Descent,简称MBGD)的初衷。
如果想更加深入了解有关这三种梯度下降法可以参考这位作者的一篇博客

其实梯度下降法很简单理解,就是如果知道一个初始值$ x_0 , 我 们 从 现 在 开 始 就 不 停 地 把 这 个 初 始 值 优 化 为 函 数 的 最 小 值 ( ,我们从现在开始就不停地把这个初始值优化为函数的最小值( ( a_k $表示学习率)
如果想更加深入了解有关梯度下降算法可以参考这位作者的一篇博客

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值