滑动平均模型

滑动平均模型在深度学习中用于稳定权值更新,基于加权移动平均原理。它能避免个别样本导致的权值剧烈变化。权值更新法则为:shadow_variable = shadow_variable*decay + variable。在TensorFlow中,通过ExponentialMovingAverage类实现这一模型,利用decay和num_steps参数控制更新速度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

滑动平均模型是深度学习中更新权值参数的一种方法,参考各个论坛上的帖子,说的太官方,不够朴素。滑动平均模型的数学原理其实就是加权移动平均原理,先说移动平均原理,参考下图:

  1. Ft是预测的时间序列值(就是下一个预测值,在深度网络中指的是将要更新的网络权值参数)
  2. At-1,At-2,...指的是时间序列中的9已有的值(在深度网络中其实就是未更新之前的参数)

前面就是滑动平均的数学原理,之所以采用这种方法而不是直接使用随机梯度的权值更新(注意滑动平均模型在是建立在梯度下降的基础之上的稳健算法),是因为使用这种预测能够使得权值更新更加的稳健,避免个别的样本使得权值更新的跳动太大。

大概介绍了滑动平均模型的实现方法之后详细的说下它的数学模型:

  1. 权值更新法则:shadow_variable = shadow_variable*decay + variable
  2. shadow_variable:未更新之前的权值参数或者更新之后的权值参数、
  3. variable:用梯度下降方法获得的权值更新、

其中:

  • 滑动衰减率decay = min(decay,(1+num_steps)/(10 + num_steps))

通过控制滑动衰减率就可以控制权值的更新速度。

光了解了其中的数学原理,在TensorFlow中实现时还是很懵逼,T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值