目录
随机梯度下降(Stochastic Gradien Descent,SGD)
小批量随机梯度下降(Mini-batch Gradient Descent)
梯度下降(Batch Gradient Descent)
介绍:使用所有的训练样本计算梯度,并且在每次迭代中更新权重。
原理:假设有一个损失函数,它依赖于参数
。通过最小化损失函数来找到最优参数
,即:
损失函数的梯度
表示在某个点
处损失函数的变化率。梯度是一个向量,指向损失函数上升最快的方向。梯度的计算公式为:
其中是参数向量的各个分量。
梯度下降的核心思想是沿着梯度的反方向更新参数,更新规则如下:
其中,