数据分析-深度学习 Pytorch Day4

小浩码出未来！

已于 2023-01-15 13:44:11 修改

阅读量499

点赞数

分类专栏：深度学习文章标签：深度学习

于 2023-01-14 23:44:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_43902376/article/details/128690832

版权

本文介绍了深度学习训练中的优化算法，包括SGD、SGD with Momentum、Adagrad和RMSprop，以及它们各自的优缺点。文章还提到了Adam算法，它是SGD和RMSprop的结合，并讨论了Warm-up学习率预热策略在模型训练中的作用和改进方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一：概述

当你想训练好一个神经网络时，你需要做好三件事情：一个合适的网络结构，一个合适的训练算法，一个合适的训练技巧：

合适的网络结构：包括网络结构和激活函数，你可以选择更深的卷积网络，然后引入残差连接。可以选择relu做为激活函数，也可以选择tanh，swish等。

合适的训练算法：通常采用SGD，也可以引入动量和自适应学习速率，也许可以取得更好的效果。

　合适的训练技巧：合理的初始化，对于较深的网络引入残差连接，归一化等操作。

二：SGD

三：SGD with Momentum

动量梯度下降法的一个本质，就是它们能够最小化碗状函数，

Why momentum?

Momentum项相当于速度,因为β稍小于1，表现出一些摩擦力，所以球不会无限加速下去，所以不像梯度下降法，每一步都独立于之前的步骤，你的球可以向下滚，获得动量，可以从碗向下加速获得动量。

有两个超参数，学习率a以及参数\beta，\beta控制着指数加权平均数。\beta最常用的值是0.9

四： Adagrad

1.其实就是给SGD加了一个分母。

AdaGrad算法就是将每一个参数的每一次迭代的梯度取平方累加后在开方，用

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。