一文详解深度学习中的优化器

本文深入探讨神经网络优化算法,包括梯度下降及其变种,如Adam等,讲解正则化技术如L1&L2-norm,以及如何最小化结构风险函数。参考邱锡鹏《神经网络与深度学习》,全面解析优化算法原理。

所谓的优化器,又叫 神经网络优化算法,或者 梯度下降算法

是通过改善训练方式,来最小化(或最大化)损失函数E(x)。

但是直接最小化经验风险很容易导致过拟合,于是我们需要在经验风险后面加一个正则化项,在这篇文章中我们详细介绍了几种常用的正则化方法 深度学习中的正则化技术--L1&L2-norm,Dropout,Max-norm,像这种加了正则化项的风险函数我们称为结构风险函数,于是我们的优化目标变为最小化结构风险函数。

神经网络优化和优化算法要点总结

 主要参考:
邱锡鹏《神经网络与深度学习》

一文看懂各种神经网络优化算法:从梯度下降到Adam方法 - 知乎
https://zhuanlan.zhihu.com/p/27449596

从基本原理到梯度下降,小白都能看懂的神经网络教程 - 知乎
https://zhuanlan.zhihu.com/p/59385110

从 SGD 到 Adam —— 6大常见优化算法总结 - 知乎
https://zhuanlan.zhihu.com/p/64113429

《神经网络与深度学习》笔记-第一章-神经网络基础与梯度下降算法 - 知乎
https://zhuanlan.zhihu.com/p/57857629

神经网络的梯度下降算法:梯度矩阵的链式法则(便于向量化代码实现) - 知乎
https://zhuanlan.zhihu.com/p/23569121

一文看懂各种神经网络优化算法:从梯度下降到Adam方法 - 知乎
https://zhuanlan.zhihu.com/p/27449596

 

少BB,上代码 系列:

深度学习中的优化算法(Optimizer)理解与python实现 - 知乎
https://zhuanlan.zhihu.com/p/79981927

Adam 究竟还有什么问题 —— 深度学习优化算法概览(二) - 知乎
https://zhuanlan.zhihu.com/p/37269222

全局最优解?为什么SGD能令神经网络的损失降到零 - 知乎
https://zhuanlan.zhihu.com/p/46145843

深度学习超参数简单理解------>learning rate,weight decay和momentum - 知乎
https://zhuanlan.zhihu.com/p/23906526

一个值得深思的问题?为什么验证集的loss会小于训练集的loss - 知乎
https://zhuanlan.zhihu.com/p/89623222

薰风AI知识点:Adam看不懂?结合代码带你了解深度学习参数更新策略的发展 - 知乎
https://zhuanlan.zhihu.com/p/78674718

从SGD到NadaMax,十种优化算法原理及实现 - 知乎
https://zhuanlan.zhihu.com/p/81020717

 

如何训练你的ResNet(二):Batch的大小、灾难性遗忘将如何影响学习率 - 知乎
https://zhuanlan.zhihu.com/p/49743830

 

 

 

 

 

 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

往事如yan

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值