开门见山,本篇博客涉及到的优化方法包括有:SGD,SGD with momentum,Adagrad,RMSProp,Adam这五种。
文中出现的一些符号的含义:
模型在t时刻的参数
or
:在
处的梯度,用于计算
:从第0步累积到第t步的动量,用于计算
先介绍最基础的两种优化方法:SGD和SGD with momentum
一、SGD
本文详细介绍了深度学习中常用的优化算法,包括SGD、SGD with momentum、Adagrad、RMSProp以及Adam。通过动量和自适应学习率的概念,解释了这些算法如何帮助模型更快地收敛到最小损失值。特别是,Adam结合了RMSProp和动量的优点,以适应稀疏梯度和防止震荡。
开门见山,本篇博客涉及到的优化方法包括有:SGD,SGD with momentum,Adagrad,RMSProp,Adam这五种。
文中出现的一些符号的含义:
模型在t时刻的参数
or
:在
处的梯度,用于计算
:从第0步累积到第t步的动量,用于计算
先介绍最基础的两种优化方法:SGD和SGD with momentum
一、SGD

被折叠的 条评论
为什么被折叠?