机器学习之梯度下降

三岁学编程

于 2021-03-19 16:10:50 发布

阅读量494

点赞数 1

分类专栏： # 李宏毅老师机器学习课程文章标签：人工智能机器学习 paddlepaddle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45623093/article/details/115004044

版权

本文详细探讨了机器学习中的梯度下降方法，包括调整学习率的重要性、自适应学习率算法如Adagrad，以及随机梯度下降和特征缩放的影响。通过数学解释和实例展示了梯度下降的工作原理及其局限性。作者强调了学习率选择在优化过程中的关键作用，并分享了在实际应用中如何选择合适的学习率策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习之梯度下降

- 梯度下降

在这里插入图片描述

梯度下降

我们需要寻找一个最合适的函数（模型）就需要找到一个最好的优化方法（optimization problem）。在实际的计算中我们会先定义一个Loss函数
在这里插入图片描述

当有两个参数时，我们需要随机选取两个值作为起点Randomly start at 𝜃⁰就是我们的初始点的位置
分别计算两个值的偏微分。接着初始值减去计算得到偏微分值最后得到了一组新的参数。然后以此类推就可以得到新的一系列的参数。

终上所述得到的函数应该是：
使用图形展示就是：

调整学习率（Tuning your learning rates）

在这里插入图片描述

黑色的是Loss梯度曲线。
红色的是学习率适度情况下最合适的方法。
蓝色的线是学习率过低，需要很长的时间去学习，不是很合适。
绿色的是学习率过大直接跳过了最合适的点。
黄色的直接跳过了整个loss范围。
终上所述：学习率的大小在loss的选取中非常的重要，有些时候可以说是至关重要。
如图的内容只能够展示1-2个参数的情况，3个及以上参数则无法用该办法展示。

我们可以通过画出不同学习率和Loss之间关系的图来查看一个比较好的结果。
在这里插入图片描述
通过上图的方式可以非常形象的看到各个系列之间的情况。

自适应学习率（Adaptive Learning Rates）

通常学习率是随着参数的更新而改变的（越来越小）
刚开始距离我们的最佳值距离比较大需要大跨步的进行追击，但是当距离越来越近为了不跨过最好的那个点，我们要放慢脚步逐步的去查找。然后就会出现随着参数数据的更新学习率越来越小。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

三岁学编程 感谢支持，更好的作品会继续努力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。