机器学习之梯度下降

本文详细探讨了机器学习中的梯度下降方法,包括调整学习率的重要性、自适应学习率算法如Adagrad,以及随机梯度下降和特征缩放的影响。通过数学解释和实例展示了梯度下降的工作原理及其局限性。作者强调了学习率选择在优化过程中的关键作用,并分享了在实际应用中如何选择合适的学习率策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述

梯度下降

我们需要寻找一个最合适的函数(模型)就需要找到一个最好的优化方法(optimization problem)。在实际的计算中我们会先定义一个Loss函数
在这里插入图片描述

  • 当有两个参数时,我们需要随机选取两个值作为起点Randomly start at 𝜃0就是我们的初始点的位置
    在这里插入图片描述
  • 分别计算两个值的偏微分。接着初始值减去计算得到偏微分值最后得到了一组新的参数。然后以此类推就可以得到新的一系列的参数。
    在这里插入图片描述
    终上所述得到的函数应该是:
    在这里插入图片描述
  • 使用图形展示就是:
    在这里插入图片描述

调整学习率(Tuning your learning rates)

在这里插入图片描述

黑色的是Loss梯度曲线。
红色的是学习率 适度情况下最合适的方法。
蓝色的线是学习率过低,需要很长的时间去学习,不是很合适。
绿色的是学习率过大直接跳过了最合适的点。
黄色的直接跳过了整个loss范围。
终上所述:学习率的大小在loss的选取中非常的重要,有些时候可以说是至关重要。
如图的内容只能够展示1-2个参数的情况,3个及以上参数则无法用该办法展示。

我们可以通过画出不同学习率和Loss之间关系的图来查看一个比较好的结果。
在这里插入图片描述
通过上图的方式可以非常形象的看到各个系列之间的情况。

自适应学习率(Adaptive Learning Rates)

通常学习率是随着参数的更新而改变的(越来越小)
刚开始距离我们的最佳值距离比较大需要大跨步的进行追击,但是当距离越来越近为了不跨过最好的那个点,我们要放慢脚步逐步的去查找。然后就会出现随着参数数据的更新学习率越来越小。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三岁学编程

感谢支持,更好的作品会继续努力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值