【机器学习】——学习率,梯度下降法,批梯度下降,归一化

本文深入探讨了机器学习中梯度下降法的原理,解释了为什么不能简单通过求导数为0的方程找到损失函数最小值。通过导数的物理含义,阐述了梯度下降法如何沿着负梯度方向更新参数,以及学习率对参数更新的影响。同时,文章介绍了随机梯度下降和批梯度下降,讨论了它们在解决局部极小值和提高训练效率上的作用,并强调了特征归一化的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为什么需要梯度下降法

上一篇内容中我们讲到了对于一个损失函数 L ( θ ) L(\theta) L(θ) ,其中 θ \theta θ 是自变量,我们希望 L ( θ ) L(\theta) L(θ) 最小,那么就相当于要寻找一个 θ ∗ ∈ θ {\theta}^* \in \theta θθ ,使得个 L ( θ ∗ ) L({\theta}^*) L(θ) 为所有 L ( θ ) L(\theta) L(θ) 中的最小值。
那么如何得到这个 θ ∗ {\theta}^* θ 呢?
当时我的第一反应是:咱高数课不是学过吗?极值点要么就是不可导的点,要么就是导数为0的点(大概就这么个意思,具体条件有点记不清了)。那么我直接求导使得 L ′ ( θ ) = 0 L^{'}(\theta) =0 L(θ)=0,解方程然后把每个解代入 L ( θ ) L(\theta) L(θ) 其中值最小的一个不就是 θ ∗ {\theta}^* θ 了吗?和我想法一样的同学请举手哈哈哈。
理论上当然是可以的,然而实际上 L ( θ ) L(\theta) L(θ) 通常非常非常非常复杂,所以一般解不出来~~囧放弃这个思路。在讲梯度下降法之前我们先回顾一下导数。

导数的物理含义

我们在高等数学中学习过导数,对于一个函数 y = f ( x ) y = f(x) y=f(x),在 x 0 x_0 x0 点的导数为 f ′ ( x 0 ) = lim ⁡ Δ x → 0 f ( x 0 + Δ x ) ) − f ( x 0 ) Δ x f^{'}(x_0) = {\lim_{\Delta x \to 0}\frac{f(x_0 + \Delta x)) - f(x_0)}{\Delta x} } f(x0)=limΔx0Δxf(x0+Δx))f(x0),直观一点理解就是** f ( x ) f(x) f(x)的自变量 x x x x 0 x_0

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值