人工智能_大模型044_模型微调004_随机梯度下降优化_常见损失计算算法_手写简单神经网络_实现手写体识别---人工智能工作笔记0179

本文介绍了人工智能领域的模型微调,特别是针对梯度下降优化算法,如Adam和AdamW。阐述了训练过程中损失函数的重要性,包括欧氏距离、余弦距离和交叉熵等计算方法。通过PyTorch库实现了一个简单的神经网络,用于手写体识别的玩具数据集训练,展示了如何进行模型训练并观察损失函数的变化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

然后对于,梯度下降,为了让训练的速度更好,更快的下降,又做了很多算法,可以看到

这里要知道Transformer中最常用的Adam 和 AdamW这两种算法.

当然,这些算法都是用于优化神经网络中的参数,以最小化损失函数。下面我会尽量以通俗易懂的方式解释它们的原理和适用场景。
1. **L-BFGS(Limited-memory BFGS)**:
   - **原理**:L-BFGS是一种拟牛顿方法,用于解决大规模的优化问题。
它使用历史梯度来近似Hessian矩阵(即目标函数的二阶导数矩阵),以此来更新参数。
   - **适用场景**:当数据集不是特别大时,L-BFGS表现很好,因为它需要存储过去的
一些梯度信息。但对于特别大的数据集或网络,其内存需求可能会变得太大。
2. **Rprop(Resilient Propagation)**:
   - **原理**:Rprop是一种基于梯度的优化算法,但与其它算法不同的是,它不使用
学习率。它通过自适应调整每个参数的学习步长来优化网络。
   - **适用场景**:Rprop特别适用于训练神经网络,尤其是当网络包含多个局部最
小值时。但由于其不使用全局学习率,它可能不如其它算法那样易于实现或调整。
3. **RMSprop**:
   - **原理**:RMSprop是Geoff Hinton提出的一种自适应学习率方法。它通过计算梯度
平方的移动平均来调整每个参数的学习率。
  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

添柴程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值