1、批量梯度下降算法
批量梯度下降法是最原始的形式,它是指在每一次迭代时使用所有样本来进行梯度的更新。在深度学习里,优化算法的目标函数通常是训练数据集中有关各个样本的损失函数的平均。设 f i ( x ) f_i(x) fi(x)是有关索引为 i i i的训练数据样本的损失函数, n n n是训练数据样本数, x x x是模型的参数向量,那么目标函数定义为: f ( x ) = 1 n ∑ i = 1 n f i ( t ) f(x) = \frac 1n \sum_{i=1}^{n}{f_i(t)} f(x)=n1i=1∑nfi(t)(1)目标函数在 x x x处的梯度计算为: ∇ f ( x ) = 1 n ∑ i = 1 n ∇