SGD的作用体现在哪呢?主要为了加速收敛,SGD主要是在每一个样本后都进行参数调节,与所有样本经过网络后再进行参数调节相比,可以加速收敛,SGD公式如下:
SGD加速收敛在图像中的体现:
可以看出,在所有样本经过神经网络后,再进行参数调节时,调节的步伐确实大一些(相比于经过一个样本就调节而言),但SGD可以在相同的时间进行多次网络调节,这样所走的步伐在一个epoch后肯定更多,更加接近最低点,所以可以加速收敛!
为什么选择Stochastic Gradient Descent (SGD)
最新推荐文章于 2024-08-05 01:10:28 发布