1、优化算法通用框架
定义; 待优化参数w,目标函数:f(w), 初始学习率αα,开始进行迭代优化,在每个epoch t 中,一般会有四个步骤:
- 计算目标函数关于当前参数的梯度:
gt=∇f(wt)gt=∇f(wt)
- 根据历史梯度计算第一阶动量和第二阶动量:
mt=ϕ(g1,g2,g3.....,gt)mt=ϕ(g1,g2,g3.....,gt)Vt=φ(g1,g2,g3.....,gt)Vt=φ(g1,g2,g3.....,gt)
- 计算当前时刻的下降梯度:
ηt+1=α⋅mt/Vt−−√ηt+1=α⋅mt/Vt
- 根据下降梯度进行更新:

本文介绍了神经网络优化算法的通用框架,包括计算梯度、动量和学习率调整等步骤。常见优化算法如SGD、AdaGrad、AdaDelta、Adam和Nadam被详细讲解,其中Adam和Nadam被认为是目前最主流的选择。调参技巧强调理解数据、选择熟悉算法、数据集打散以及监控训练和验证指标的重要性。
最低0.47元/天 解锁文章
2935

被折叠的 条评论
为什么被折叠?



