梯度下降
梯度下降实现最小化:
- 随机获取一个起点
- 重复计算下面公式直到收敛:
同步更新参数:
面临问题:局部最小值,鞍点
动量
为迭代公式加上动量项,动量积累了之前的梯度权重更新值:、
动量项积累之前的梯度信息,保持惯性,避免来回震荡,加快收敛速度
自适应梯度(Adaptive Gradient)
是第t次迭代时的参数梯度向量,
为防止除0操作:
与标准梯度下降不同是多了分母一项,它积累了本次迭代次数为止,梯度历史信息用于生成梯度下降的系数值
Adam(Adaptive moment )
由梯度构造两个变量m,v。初始值为0:
其中为人工设置参数:
m替代梯度,v构造学习率