全量数据梯度下降:收敛速度较慢。
随机梯度下降法:随机性可以保证梯度有一定概率跳出极小值方向。但是在类别很多的分类问题中,容易导致不收敛。
小批量数据梯度下降法:两种方法的折中。
保证了一定的随机度,同时又能控制随机程度不会过大,导致算法不收敛。
收敛至极小值并非什么问题,极小值和最小值接近。
损失函数的曲面大致形状是凸的。
如何训练神经网络
最新推荐文章于 2024-10-08 17:20:26 发布
全量数据梯度下降:收敛速度较慢。
随机梯度下降法:随机性可以保证梯度有一定概率跳出极小值方向。但是在类别很多的分类问题中,容易导致不收敛。
小批量数据梯度下降法:两种方法的折中。
保证了一定的随机度,同时又能控制随机程度不会过大,导致算法不收敛。
收敛至极小值并非什么问题,极小值和最小值接近。
损失函数的曲面大致形状是凸的。