Gradient Descent(梯度下降)简要解析
Gradient Descent 是机器学习和深度学习中核心的优化算法,核心目标是通过“逐步迭代”找到函数(通常是模型的损失函数)的最小值,从而让模型学到最优参数(如权重、偏置)。
1. 核心原理:“沿着梯度反方向下坡”
- 梯度(Gradient):是函数在某一点的“方向导数”,本质是一个向量,它指向函数值增长最快的方向(可理解为“上坡最陡的方向”)。
- 下降逻辑:要找到函数最小值,就需要沿着梯度的反方向(即“下坡最陡的方向”)逐步调整参数,每次调整时“迈一小步”(步长由“学习率”控制),直到函数值不再明显下降(接近最小值)。
2. 关键概念
- 损失函数(Loss Function):衡量模型预测值与真实值的误差(如 MSE 均方误差、交叉熵),梯度下降的目标就是最小化这个函数。
- 学习率(Learning Rate):控制每次参数调整的“步长”。
- 学习率太大:可能跳过最小值(震荡不收敛);
- 学习率太小:迭代速度极慢,需要大量步数才能接近最优解。
- 迭代过程:
- 初始化模型参数(如随机赋值);
- 计算当前参数下损失函数的梯度;
- 按“参数 = 参数 - 学习率 × 梯度”更新参数;
- 重复步骤 2-3,直到损失函数收敛(变化小于阈值)或达到最大迭代次数。
3. 常见变种(适应不同场景)
- 批量梯度下降(BGD):每次用全部训练数据计算梯度,精度高但数据量大时速度慢(适合小数据集)。
- 随机梯度下降(SGD):每次用单个样本计算梯度,速度快但梯度波动大(易震荡)。
- 小批量梯度下降(Mini-batch GD):每次用一小批样本(如 32/64/128 个)计算梯度,平衡了速度与稳定性,是目前最常用的版本(深度学习框架默认多采用此方式)。
4. 核心作用
梯度下降是大多数机器学习模型(如线性回归、逻辑回归)和深度学习模型(如 CNN、Transformer)的“训练引擎”——没有它,模型无法通过数据调整参数,也就无法实现“学习”。
1845

被折叠的 条评论
为什么被折叠?



