人工智能_大模型044_模型微调004_随机梯度下降优化_常见损失计算算法_手写简单神经网络_实现手写体识别---人工智能工作笔记0179

添柴程序猿

于 2024-04-29 17:08:37 发布

阅读量309

点赞数

CC 4.0 BY-SA版权

分类专栏：深度/机器学习&爬虫文章标签：人工智能大模型手写体识别常见损失函数计算方法简单神经网络实现

本文为博主原创文章，未经博主添柴程序猿允许不得转载违者追究法律责任。

本文链接：https://blog.youkuaiyun.com/lidew521/article/details/138314933

深度/机器学习&爬虫专栏收录该内容

168 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了人工智能领域的模型微调，特别是针对梯度下降优化算法，如Adam和AdamW。阐述了训练过程中损失函数的重要性，包括欧氏距离、余弦距离和交叉熵等计算方法。通过PyTorch库实现了一个简单的神经网络，用于手写体识别的玩具数据集训练，展示了如何进行模型训练并观察损失函数的变化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

然后对于,梯度下降,为了让训练的速度更好,更快的下降,又做了很多算法,可以看到

这里要知道Transformer中最常用的Adam 和 AdamW这两种算法.

当然，这些算法都是用于优化神经网络中的参数，以最小化损失函数。下面我会尽量以通俗易懂的方式解释它们的原理和适用场景。
1. **L-BFGS（Limited-memory BFGS）**：
   - **原理**：L-BFGS是一种拟牛顿方法，用于解决大规模的优化问题。
它使用历史梯度来近似Hessian矩阵（即目标函数的二阶导数矩阵），以此来更新参数。
   - **适用场景**：当数据集不是特别大时，L-BFGS表现很好，因为它需要存储过去的
一些梯度信息。但对于特别大的数据集或网络，其内存需求可能会变得太大。
2. **Rprop（Resilient Propagation）**：
   - **原理**：Rprop是一种基于梯度的优化算法，但与其它算法不同的是，它不使用
学习率。它通过自适应调整每个参数的学习步长来优化网络。
   - **适用场景**：Rprop特别适用于训练神经网络，尤其是当网络包含多个局部最
小值时。但由于其不使用全局学习率，它可能不如其它算法那样易于实现或调整。
3. **RMSprop**：
   - **原理**：RMSprop是Geoff Hinton提出的一种自适应学习率方法。它通过计算梯度
平方的移动平均来调整每个参数的学习率。