- SGD with momentum有两种写法 效果等价

- Adam中的bias correction项的存在是出于以下考虑:first_momentum以及second_momentum都初始化为0,为了仅在开始的几次迭代中增大他们的影响,增加了一个参数为t的correction,值得注意的是,t的值随时间增大,也就是说放大效果越来越弱。

CS231 笔记
最新推荐文章于 2025-11-02 14:39:28 发布
博客介绍了SGD with momentum有两种等价写法,还阐述了Adam中bias correction项存在的原因。由于first_momentum和second_momentum初始化为0,为在开始几次迭代增大其影响设correction参数t,且t随时间增大,放大效果渐弱。
500

被折叠的 条评论
为什么被折叠?



