滑动平均模型是深度学习中更新权值参数的一种方法,参考各个论坛上的帖子,说的太官方,不够朴素。滑动平均模型的数学原理其实就是加权移动平均原理,先说移动平均原理,参考下图:
- Ft是预测的时间序列值(就是下一个预测值,在深度网络中指的是将要更新的网络权值参数)
- At-1,At-2,...指的是时间序列中的9已有的值(在深度网络中其实就是未更新之前的参数)
前面就是滑动平均的数学原理,之所以采用这种方法而不是直接使用随机梯度的权值更新(注意滑动平均模型在是建立在梯度下降的基础之上的稳健算法),是因为使用这种预测能够使得权值更新更加的稳健,避免个别的样本使得权值更新的跳动太大。
大概介绍了滑动平均模型的实现方法之后详细的说下它的数学模型:
- 权值更新法则:shadow_variable = shadow_variable*decay + variable
- shadow_variable:未更新之前的权值参数或者更新之后的权值参数、
- variable:用梯度下降方法获得的权值更新、
其中:
- 滑动衰减率decay = min(decay,(1+num_steps)/(10 + num_steps))
通过控制滑动衰减率就可以控制权值的更新速度。
光了解了其中的数学原理,在TensorFlow中实现时还是很懵逼,T