开门见山,本篇博客涉及到的优化方法包括有:SGD,SGD with momentum,Adagrad,RMSProp,Adam这五种。
文中出现的一些符号的含义:
模型在t时刻的参数
or
:在
处的梯度,用于计算
:从第0步累积到第t步的动量,用于计算
先介绍最基础的两种优化方法:SGD和SGD with momentum
一、SGD
开门见山,本篇博客涉及到的优化方法包括有:SGD,SGD with momentum,Adagrad,RMSProp,Adam这五种。
文中出现的一些符号的含义:
模型在t时刻的参数
or
:在
处的梯度,用于计算
:从第0步累积到第t步的动量,用于计算
先介绍最基础的两种优化方法:SGD和SGD with momentum
一、SGD