一般而言,在随机梯度下降中,有梯度的方向即可;
在确定方向的情况下,给一个合适的步长,也就是在这个方向上,下降步长这么多;
这两个参数,感觉就够了
但是,怎们出现了一个 momentum 冲量呢?
奇怪也哉
其实也好理解,
随机梯度下降,有时候解决问题太慢了
(1)可能进入了一个平坦地区,下降好多步,也走不到头
(2)进入了一个泥石流区域,向左1步,向右1步,走半天也走不出去
冲量就是解决类似的问题的
每一步的梯度下降的量和方向,也参考一下上面的步骤,要是方向一致,就大步走;
要是忽走忽右,就中和一下,往前走
ν=γν+α∇θJ(θ,x(i),y(i))
θ=θ−ν
ν
代表速率向量,由于梯度比常规方法更大,
α
需要更小。
γ∈(0,1],
该参数确定上一次梯度对当前更新的贡献率,通常,在初始学习稳定之前,取0.5,之后取0.9或更大。
在物理上,冲量是力的时间累积效应的量度,是矢量。如果物体所受的力是大小和方向都不变的恒力F,冲量I就是F和作用时间t的乘积。如果F的大小、方向是变动的,冲量I应用矢量积分运算。冲量通常用来求短暂过程(如撞击)中物体间的作用力,即由物体的动量增量和作用的时间而估算其作用力。此力又称冲力。冲量的单位在国际单位制中是千克·米每秒(kg·m /s)。通常用I(大写的i)表示。
定义
例题分析