【机器学习】——学习率,梯度下降法,批梯度下降,归一化

最新推荐文章于 2025-05-30 08:02:22 发布

原创

最新推荐文章于 2025-05-30 08:02:22 发布 · 4.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #机器学习 #算法

本文深入探讨了机器学习中梯度下降法的原理，解释了为什么不能简单通过求导数为0的方程找到损失函数最小值。通过导数的物理含义，阐述了梯度下降法如何沿着负梯度方向更新参数，以及学习率对参数更新的影响。同时，文章介绍了随机梯度下降和批梯度下降，讨论了它们在解决局部极小值和提高训练效率上的作用，并强调了特征归一化的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么需要梯度下降法

在上一篇内容中我们讲到了对于一个损失函数 $L(\theta)$ ,其中 $\theta$ 是自变量，我们希望 $L(\theta)$ 最小，那么就相当于要寻找一个 ${\theta}^* \in \theta$ ,使得个 $L({\theta}^*)$ 为所有 $L(\theta)$ 中的最小值。
那么如何得到这个 ${\theta}^*$ 呢？
当时我的第一反应是：咱高数课不是学过吗？极值点要么就是不可导的点，要么就是导数为0的点（大概就这么个意思，具体条件有点记不清了）。那么我直接求导使得 $L^{'}(\theta) =0$ ，解方程然后把每个解代入 $L(\theta)$ 其中值最小的一个不就是 ${\theta}^*$ 了吗？和我想法一样的同学请举手哈哈哈。
理论上当然是可以的，然而实际上 $L(\theta)$ 通常非常非常非常复杂，所以一般解不出来~~囧放弃这个思路。在讲梯度下降法之前我们先回顾一下导数。

导数的物理含义

我们在高等数学中学习过导数，对于一个函数 $y = f (x)$ ，在 $x_0$ 点的导数为 $f^{'}(x_0) = {\lim_{\Delta x \to 0}\frac{f(x_0 + \Delta x)) - f(x_0)}{\Delta x} }$ ,直观一点理解就是** $f (x)$ 的自变量 $x$ 在 $x_0$