待优化参数w,损失函数loss,学习率lr,每次迭代一个batch(通常为2^n个数据),t表示当前batch迭代的总次数 一阶动量:与梯度相关的函数 二阶动量:与梯度平方相关的函数 随机梯度下降SGD 最常用的梯度下降法,不含动量,一阶动量等于梯度,二阶动量等于1 # SGD w1.assign_sub(lr * grads[0]) # 参数w1自更新 b1.assign_sub(lr * grads[1]) # 参数b自更新 SGMD 在SGD的基础上增加了一阶动量: 其中0