动量 取决于β参数的选取,根据矢量三角形法则,选取下次的运动方向。 不加动量的情况下,方向变化比较尖锐,没有考虑历史变化的情况,且容易局部最优。 加动量后,变化更加的缓和,依靠惯性,可能跳出局部最优解。 学习率调整