一、概念
在深度学习中,优化器(Optimizer)是用于调整神经网络模型参数(如权重和偏置)以最小化损失函数的算法。优化器在训练过程中通过迭代更新模型参数,使模型能够更好地拟合训练数据。不同的优化器有不同的更新规则和策略,适用于不同类型的神经网络和任务。
二、常见优化器
1、随机梯度下降(Stochastic Gradient Descent)
首先我们来看一下梯度下降算法,令损失函数J(θ)为模型预测值与真实值之间的误差度量。梯度下降则通过计算损失函数对参数的梯度,并沿着梯度的反方向更新参数,以逐步减小损失函数的值。对于一个参数向量,梯度下降的更新规则为:
其中,是模型参数;
是学习率,控制每次更新的步长;
是损失函数
对参数
的梯度。而在随机梯度下降中,损失函数的梯度是基于单个样本计算的,而不是整个训练集。假设我们有一个训练集
,其中
是输入,
是对应的标签。随机梯度下降的更新规则为: