【机器学习一】梯度下降算法、随机梯度下降算法、批量梯度下降与梯度上升算法的比较

最新推荐文章于 2024-09-23 16:08:01 发布

小岛上的八块腹肌

最新推荐文章于 2024-09-23 16:08:01 发布

阅读量1.2k

点赞数 1

CC 4.0 BY-SA版权

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41245919/article/details/85091133

本文对比了梯度下降、随机梯度下降和批量梯度下降算法，探讨了它们在求解最小值时的特点和适用场景。同时，还分析了梯度下降与牛顿法的区别，以及梯度下降法和梯度上升法的几何解释，解释了为何在寻找最大值时使用梯度上升法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

梯度下降法、随机梯度下降算法、批量梯度下降

梯度下降：梯度下降就是我上面的推导，要留意，在梯度下降中，对于θ的更新，所有的样本都有贡献，也就是参与调整θ

其计算得到的是一个标准梯度。因而理论上来说一次更新的幅度是比较大的。如果样本不多的情况下，当然是这样收敛的速度会更快啦~

随机梯度下降：可以看到多了随机两个字，随机也就是说我用样本中的一个例子来近似我所有的样本，来调整θ

，因而随机梯度下降是会带来一定的问题，因为计算得到的并不是准确的一个梯度，容易陷入到局部最优解中

批量梯度下降：其实批量的梯度下降就是一种折中的方法，他用了一些小样本来近似全部的，其本质就是我1个指不定不太准，那我用个30个50个样本那比随机的要准不少了吧，而且批量的话还是非常可以反映样本的一个分布情况的。

梯度下降法与牛顿法的比较

梯度下降法是用来求函数值最小处的参数值，而牛顿法是用来求函数值为0处的参数值，这两者的目的初看是感觉有所不同，但是再仔细观察下牛顿法是求函数值为0时的情况，如果此时的函数是某个函数A的导数，则牛顿法也算是求函数A的最小值（当然也有可能是最大值）了，因此这两者方法目的还是具有相同性的。牛顿法的参数求解也可以用矢量的形式表示，表达式中有hession矩阵和一元导函数向量。

首先的不同之处在于梯度法中需要选择学习速率，而牛顿法不需要选择任何参数。第二个不同之处在于梯度法需要大量的迭代次数才能找到最小值，而牛顿法只需要少量的次数便可完成。但是梯度法中的每一次迭代的代价要小，其复杂度为O(n),而牛顿法的每一次迭代的代价要大，为O(n^3)。因此当特征的数量n比较小时适合选择牛顿法，当特征数n比较大时，最好选梯度法。这里的大小以n等于1000为界来计算。

梯度下降与梯度上升算法的比较

在求极值的问题中，有梯度上升和梯度下降两个最优化方法。梯度上升用于求最大值，梯度下降用于求最小值。

梯度下降法几何解释：

&nb

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。