这一节分享另一个优化方法:滑动平均。有些书里把它叫做“影子值”。滑动平均记录了每个参数一段时间内过往值的平均。由于滑动平均值不仅表现了当前值,还表现了过去一段时间内的平均值,这样可以增加模型的泛化性。 滑动平均通常针对所有参数进行优化,包括所有的w和b。 滑动平均的感觉就好比给参数加了个影子,参数变化,影子缓慢追随。
|
神经网络的优化(2)---- 滑动平均 ema
最新推荐文章于 2025-06-03 21:41:50 发布
这一节分享另一个优化方法:滑动平均。有些书里把它叫做“影子值”。滑动平均记录了每个参数一段时间内过往值的平均。由于滑动平均值不仅表现了当前值,还表现了过去一段时间内的平均值,这样可以增加模型的泛化性。 滑动平均通常针对所有参数进行优化,包括所有的w和b。 滑动平均的感觉就好比给参数加了个影子,参数变化,影子缓慢追随。
|