随机梯度下降算法收敛证明
在离散情况下,假设每个函数都是凸的,可转换为右侧图。
简化为每个位置的梯度不是0就是1。
而显然在最小loss左侧时,有更大的概率参数向右移动,收敛于最小值。
在右侧同理。
基于以上思路,即可以证明随机梯度收敛于全局最小值。
而非凸情况下,可以证明其收敛于局部极小值。
随机梯度下降算法收敛证明
在离散情况下,假设每个函数都是凸的,可转换为右侧图。
简化为每个位置的梯度不是0就是1。
而显然在最小loss左侧时,有更大的概率参数向右移动,收敛于最小值。
在右侧同理。
基于以上思路,即可以证明随机梯度收敛于全局最小值。
而非凸情况下,可以证明其收敛于局部极小值。