【Lee-ML】05 如何炼丹

星宇痕

已于 2022-03-23 23:34:12 修改

阅读量448

点赞数

分类专栏： datawhale 文章标签：神经网络深度学习机器学习人工智能

于 2021-07-21 23:19:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_40822405/article/details/118978641

版权

datawhale 专栏收录该内容

7 篇文章

订阅专栏

本文深入探讨机器学习中的优化问题，从临界点的区分与鞍点解决方案，到批次大小对梯度下降的影响，再到动量和自适应学习率的优化策略，揭示了如何有效提升模型训练的效率和性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

围绕着使Loss到达全局最优的目标，从梯度下降、学习率、batch、归一化等等角度阐述炼丹的经验。

【01】临界点

Loss如果没有到达全局最优点，就一定是到了局部最优吗？未必——
在这里插入图片描述
这个很好理解，就像 $y = x^3$ 在 $x = 0$ 处导数为0，但此时的 $y$ 并不是最小值甚至都不是极小值。放到机器学习里来，很明显这样的鞍点是不能接受的，因为还有可优化的空间。

01 如何区分？

在这里插入图片描述
这就要用到神奇的泰勒展开了——一次偏导为0了，二次偏导可未必啊，包含着更多的信息。

根据上面的推导，可以通过H矩阵的正定性来区分一个点是鞍点还是局部最优点。

02 如何解决鞍点？

在这里插入图片描述
关键还是这个二次偏导矩阵H，根据上面的推导，其实可以给出参数的更新方式，来找到新的使Loss下降的路径。

03 一些启发

在这里插入图片描述
在二维是局部最优点放到三维空间里就未必了，同样的，在低维空间里的局部最优，高维空间里未必是。想象不能抵达的边界，数学依然稳定，继续用更高次的偏导矩阵去计算就行。

【02】批次

在这里插入图片描述
往往在做机器学习和深度学习的时候，并不是拿全部的样本去做梯度下降，而是把训练集切割成等量的小批次。那么，批次的大小（batch size）对抵达最优点有什么影响呢？

01 直觉而言

在这里插入图片描述
大的花时间更长，但是直接。小的更快，但是噪声多。

02 然而……

在这里插入图片描述
直接给出结果图吧，挺反直觉的。

batch size更小，反而效果更好，以上是一种解释。

03 鱼与熊掌兼得？

在这里插入图片描述

【03】动量

对梯度下降的优化，最大的好处是可以冲过stuck
在这里插入图片描述

普通的梯度下降只会考虑这次计算出来的梯度，并以此作为更新参数的指导。

带动量的梯度下降，会考虑到上一次的更新方向——其实包含了之前所有的方向。

直观效果如上图。

【04】自适应学习率

在这里插入图片描述
上面讨论的临界点，很多时候达不到。

灵魂发问：loss不动的时候，gradient真的很小了吗？从来没关注过！

01 what and why？

在这里插入图片描述
最简单的只有两个参数的神经网络，使用梯度下降也不一定能到达最优点。

02 怎么解决？

在这里插入图片描述
不同参数需要不同的学习率，去适应不同参数的scale（归一化不行吗？）

使用平方根来结合以前梯度

但这并不完美，所以需要继续改进

吐槽一下，这不是低通滤波吗？确实具备自适应能力

举例说明
在这里插入图片描述
！！！好多深度学习框架里都见过这个方法！

为什么会喷射？

再增加一个超参数！

warmup策略！还有上面提到的learning rate decay，都是经常用到的技巧。
总结一下最终版本的梯度下降：

博客等级

码龄7年

19
原创

15
点赞

82
收藏

7
粉丝

关注

私信

热门文章

分类专栏

最新评论

OpenVINO2020+NCS2代运行TensorFlow模型
weixin_38678523: 您好请问有解决方法吗我也遇到了这个问题
李宏毅深度学习|Datawhale-7月 Task07 总结
优快云-Ada助手: 非常感谢优快云博主的分享，这篇博客对于深度学习爱好者来说非常有价值。我觉得下一篇博客可以继续深入探讨深度学习领域中的常见问题和解决方案，比如如何解决过拟合问题、如何优化模型等等。这样的技术文章对其他用户也会非常有帮助。相信博主的经验分享会吸引更多的读者关注哦！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
OpenVINO2020+NCS2代运行TensorFlow模型
mono0515: 博主可以請問一下如果把模型改成yolo 用第二個程式跑需要改甚麼嗎
OpenVINO2020+NCS2代运行TensorFlow模型
mono0515: 博主，可以請教一下，我跑上面OPENVINO程式，程式有順利運行，但畫面並沒有顯示任何框，請問會是甚麼問題，cmd並無報錯
OpenVINO2020+NCS2代运行TensorFlow模型
mono0515: 感謝博主，真的是乾貨滿滿

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。