pytorch常用的优化器

浩瀚之水_csdn

已于 2024-09-12 08:42:02 修改

阅读量1.2k

点赞数 11

CC 4.0 BY-SA版权

分类专栏： # Pytorch框架文章标签：人工智能机器学习深度学习

于 2024-09-07 11:22:56 首次发布

本文链接：https://blog.youkuaiyun.com/a8039974/article/details/141992880

Pytorch框架专栏收录该内容

156 篇文章

订阅专栏

torch.optim 是 PyTorch 中用于优化模型参数的一个重要模块，它提供了多种优化算法的实现。下面是一些常用的优化器，包括它们的定义、原理、优缺点：

1. SGD (Stochastic Gradient Descent)

定义：SGD 是一种基本的优化算法，用于随机地优化目标函数。它通过计算梯度并更新参数来最小化损失函数。

原理：在每个训练步骤中，SGD 使用来自随机选择的小批量样本的梯度来更新模型参数。

class torch.optim.SGD(params, lr=<object object>, momentum=0, dampening=0, weight_decay=0, nesterov=False)

优点：

实现简单，计算效率高（特别是对于大规模数据集）。
对于某些类型的损失函数（如凸损失函数），SGD 能够保证收敛到全局最小值。

缺点：

学习率的选择很关键，太小会导致收敛缓慢，太大则可能导致收敛到次优解或发散。
可能会陷入局部最小值或鞍点。
不考虑历史梯度信息，可能导致在最优解附近震荡。

2. Adam (Adaptive Moment Estimation)

定义：Adam 是一种基于梯度下降的优化算法，它结合了动量（Momentum）和RMSprop算法的思想。

原理：Adam 计算梯度的一阶矩估计（即均值）和二阶矩估计（即未中心化的方差），然后利用这些估计来调整每个参数的学习率。

class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)

优点：

自适应地调整学习率，对于不同的参数有不同的学习率。
对超参数的选择相对不敏感（如学习率）。
收敛速度快，效果好。

缺点：

可能因为更新步长过大而错过最优解。
后期可能由于学习率过小而导致学习停滞。

3. RMSprop

定义：RMSprop 是一种自适应学习率方法，它通过调整每个参数的学习率来加速训练。

原理：RMSprop 对梯度进行平方的指数加权移动平均，并据此调整学习率。它试图解决 Adagrad 在学习率衰减过快的问题。

class torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)

优点：

自适应地调整学习率，对于不同的参数有不同的学习率。
在非凸优化问题中表现良好。

缺点：

与 Adam 类似，RMSprop 也可能由于学习率过小而导致学习停滞。

4. Momentum

定义：Momentum 是一种加速 SGD 的方法，它模拟了物理中的动量概念。

原理：Momentum 在更新参数时，不仅考虑当前的梯度，还考虑过去的梯度（即动量）。这有助于在相关方向上加速 SGD，并抑制震荡。

优点：

加速收敛，特别是在处理高曲率、小但一致的梯度时。
减少震荡，使收敛更加稳定。

缺点：

仍然需要选择一个合适的学习率。
动量参数（如 β）的选择对性能有影响。

5. Adagrad

定义：Adagrad 是一种自适应学习率算法，它为每个参数维护一个累积的梯度平方和。

原理：Adagrad 根据每个参数的累积梯度平方和来调整学习率，使得频繁更新的参数的学习率逐渐减小，而稀疏更新的参数的学习率相对较大。

class torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0, initial_accumulator_value=0)

优点：

适用于处理稀疏梯度。
不需要手动调整学习率。

缺点：

学习率会单调递减，导致后期学习率过小，可能使训练提前停止。
对初始学习率的选择较为敏感。

6. Adadelta

定义：
Adadelta是一种自适应学习率算法，它通过计算每个参数梯度的平方的指数移动平均来调整学习率。

原理：
Adadelta避免了Adagrad学习率单调递减的问题，它通过维护一个窗口内的梯度平方和，并根据这个累积值来动态调整每个参数的学习率。

优缺点：

优点：与Adagrad相比，Adadelta的学习率不会单调递减，因此可以避免训练后期学习率过小的问题。同时，它不需要手动设置全局学习率。
缺点：在某些情况下，Adadelta的性能可能不如Adam等更先进的优化器。

7. Adagrad

定义：
Adagrad是一种为每一个参数保留一个学习率的优化算法，独立地适应模型参数，对频繁更新的参数执行较小的更新，对不频繁更新的参数执行较大的更新。

原理：
Adagrad为每个参数维护一个累积的梯度平方和，并根据这个累积值来调整学习率。随着训练的进行，频繁更新的参数的学习率会逐渐减小，而稀疏更新的参数的学习率相对较大。

优缺点：

优点：适用于处理稀疏梯度的问题，并且不需要手动设置全局学习率。
缺点：学习率会单调递减，这可能导致训练后期学习率过小，从而提前停止学习。此外，Adagrad对初始学习率的选择较为敏感。

8. Adamax

定义：
Adamax是Adam算法的一个变体，它使用无穷范数（infinity norm）来计算梯度的一阶矩估计，而不是默认的L2范数。

原理：
Adamax通过维护梯度的一阶矩和二阶矩的估计，并根据这些估计来调整学习率。与Adam不同的是，Adamax在计算梯度的一阶矩估计时使用了无穷范数。

优缺点：

优点：在某些情况下，Adamax可能比Adam具有更好的性能，特别是在处理具有大梯度的数据集时。
缺点：与Adam类似，Adamax也可能对超参数的选择敏感，特别是学习率。

9. SparseAdam

定义：
SparseAdam是Adam算法的一个变体，专门用于处理稀疏梯度的情况。

原理：
SparseAdam优化了内存使用和计算效率，特别是当梯度非常稀疏时。它只对非零梯度元素进行更新，从而减少了计算量和内存消耗。

优缺点：

优点：适用于处理具有大量稀疏参数的模型，如自然语言处理中的嵌入层。它可以显著提高训练效率和减少内存消耗。
缺点：在梯度不稀疏的情况下，SparseAdam的性能可能不如普通的Adam算法。

10. LBFGS

定义：
LBFGS（Limited-memory Broyden–Fletcher–Goldfarb–Shanno）是一种基于拟牛顿法的优化算法，它使用有限的内存来近似Hessian矩阵的逆。

原理：
LBFGS通过维护一个历史梯度信息的集合来近似Hessian矩阵的逆，并据此进行参数更新。它特别适用于处理具有少量参数和强凸性问题的优化任务。

优缺点：

优点：在处理小规模优化问题时具有较高的效率和精度。
缺点：由于需要存储历史梯度信息，因此内存消耗较大。此外，LBFGS不适用于具有大量参数的深度学习模型。

总结

每种优化器都有其独特的优缺点，选择哪种优化器取决于具体的应用场景、模型结构、数据集特性等因素。在实践中，通常需要通过实验来比较不同优化器的效果，并选择最适合当前任务的优化器。