批量梯度下降

对于一个数据量非常大的模型,采用批量梯度下降,意味着每一次迭代计算都需要将所有样本数据导入并计算,这是计算量、计算时间消耗非常严重的一步。
随机梯度下降

随机梯度下降法每次迭代更新
θ
\theta
θ时,只需要用到一个样本数据,如上图中所示
由于批量下降是通过总体数据得到的新的迭代更新,所以每一次更新的方向都是好的,而随机梯度只由一个数据控制本次更新,所以可能遇到有时更新的未必是好的方向,但是从整体上看,
θ
\theta
θ整体的更新是往好的方向的(即使损失函数下降到最小的方向)
小批量梯度下降

