机器学习概念之Gradient Descent(梯度下降)解释

原创于 2025-10-21 10:58:37 发布 · 304 阅读

CC 4.0 BY-SA版权

文章标签：

Gradient Descent 是机器学习和深度学习中核心的优化算法，核心目标是通过“逐步迭代”找到函数（通常是模型的损失函数）的最小值，从而让模型学到最优参数（如权重、偏置）。

梯度（Gradient）：是函数在某一点的“方向导数”，本质是一个向量，它指向函数值增长最快的方向（可理解为“上坡最陡的方向”）。
下降逻辑：要找到函数最小值，就需要沿着梯度的反方向（即“下坡最陡的方向”）逐步调整参数，每次调整时“迈一小步”（步长由“学习率”控制），直到函数值不再明显下降（接近最小值）。

损失函数（Loss Function）：衡量模型预测值与真实值的误差（如 MSE 均方误差、交叉熵），梯度下降的目标就是最小化这个函数。
学习率（Learning Rate）：控制每次参数调整的“步长”。
- 学习率太大：可能跳过最小值（震荡不收敛）；
- 学习率太小：迭代速度极慢，需要大量步数才能接近最优解。
迭代过程：
1. 初始化模型参数（如随机赋值）；
2. 计算当前参数下损失函数的梯度；
3. 按“参数 = 参数 - 学习率 × 梯度”更新参数；
4. 重复步骤 2-3，直到损失函数收敛（变化小于阈值）或达到最大迭代次数。

批量梯度下降（BGD）：每次用全部训练数据计算梯度，精度高但数据量大时速度慢（适合小数据集）。
随机梯度下降（SGD）：每次用单个样本计算梯度，速度快但梯度波动大（易震荡）。
小批量梯度下降（Mini-batch GD）：每次用一小批样本（如 32/64/128 个）计算梯度，平衡了速度与稳定性，是目前最常用的版本（深度学习框架默认多采用此方式）。