【机器学习-06】-学习率的选择

【机器学习-06】-学习率的选择

系统地解释了梯度下降算法(Gradient Descent)的核心概念及其关键参数——学习率(α)的作用,具体内容可总结如下:


1. 学习率(α)对优化过程的影响(第1张图)

核心公式:参数更新规则 w = w − α d d w J ( w ) w = w - \alpha \frac{d}{dw} J(w) w=wαdwdJ(w)
• 通过调整参数 ( w ) 沿损失函数 ( J(w) ) 的负梯度方向移动,逐步逼近最小值。
学习率的作用
α过小:收敛速度慢,需要多次迭代才能接近最小值(如图中缓慢下降的路径)。
α过大:可能导致优化过程不稳定,表现为:
◦ 越过最小值(overshoot)。
◦ 无法收敛甚至发散(如震荡或偏离最小值的路径)。
图示:通过不同颜色的优化路径对比,直观展示了学习率选择的重要性。


2. 局部最小值与梯度下降的收敛性(第2张图)

局部最小值:损失函数曲线上的一个低点(标注为 “local minimum”),此处梯度(斜率)为零(slope=0)。
固定学习率的可行性
• 即使学习率α固定,梯度下降仍可能收敛到局部最小值,因为随着接近最小值,梯度 d d w J ( w ) \frac{d}{dw} J(w) dwdJ(w)逐渐减小,步长自然变小(如图中箭头逐渐缩短)。
关键点:在局部最小值处,梯度为零,参数 ( w ) 不再更新。


3. 固定学习率下的优化过程(第3张图)

动态调整步长
• 初始阶段:梯度较大,参数更新步长较大(图中 “large” 箭头)。
• 接近局部最小值时:梯度变小,步长自动减小(图中 “smaller” 箭头),无需手动降低α。
结论:固定学习率在合理范围内仍可保证收敛,因为梯度本身会调节步长。


三幅图的整体关联

  1. 学习率的选择(第1张图)是梯度下降能否有效收敛的前提。
  2. 局部最小值(第2张图)是优化的目标,固定学习率下可通过梯度自适应达到。
  3. 优化过程的动态性(第3张图)解释了为何固定学习率在理论上是可行的——梯度变化自然控制了步长。

关键启示
梯度下降的成功依赖于合理的学习率,但即使α固定,算法仍能通过梯度变化自适应调整步长,最终收敛到局部最小值(假设函数性质良好,如凸函数或平滑的非凸函数)。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值