深度学习八股

最新推荐文章于 2025-03-10 17:18:17 发布

2_33_

最新推荐文章于 2025-03-10 17:18:17 发布

阅读量2k

点赞数 14

文章标签：深度学习人工智能

本文链接：https://blog.youkuaiyun.com/qq_56047026/article/details/142056856

版权

一、优化器

1.SGD是什么？

批梯度下降：遍历全部数据集算一次损失函数，计算量开销大，计算速度慢，不适合在线学习。
随机梯度下降(SGD)：每次随机选择一个数据计算损失函数，求梯度并更新参数，计算速度快，但收敛性可能不太好。
批量随机梯度下降（Mini-batch SGD）：用小批量样本来近似全部，将样本分为m个mini-batch，每个mini-batch包含n个样本。
使用动量(Momentum)的随机梯度下降法(SGD)：在随机梯度算法中，每一步的步幅是固定的，而在动量学习算法中，每一步走多远不仅依赖于本次的梯度大小还取决于过去的速度。速度是累计各轮训练参数的梯度。动量主要解决SGD的两个问题：一是随机梯度引入的噪声；二是hessian矩阵病态问题，可以理解为SGD在收敛过程中和正确梯度相比来回摆动比较大的问题。

2.简单介绍下Adam算法

RMSprop将学习率分解成一个平方梯度的指数衰减的平均。Adam中动量直接并入梯度的一阶矩估计。其次，相比缺少修正因子导致二阶矩估计可能在训练初期具有很高偏置的RMSprop，Adam还包括偏置修正，修正从原点初始化的一阶矩估计和二阶矩估计。本质上是带有动量的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要是经过偏置校正后，每一次迭代学习率都有一个确定范围，使得参数比较平稳。