Datawhale AI训练营--深度学习进阶

AI_Robot001

于 2024-08-25 23:15:58 发布

阅读量363

点赞数 4

CC 4.0 BY-SA版权

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/AI_Robot001/article/details/141536662

之前虽然接触过cv相关的深度学习模型，但通常是需要什么才学什么，因此希望借Datawhale的这个机会系统地学习一下深度学习基础。

3.1 局部极小值与鞍点

概念引入：
在深度学习中，优化神经网络时可能会遇到损失不再下降的情况，这通常与局部极小值或鞍点有关。之前遇到局部极小值震荡时并未考虑到鞍点的情况。

临界点种类：

局部极小值：梯度为零，且该点周围的损失都较高。
鞍点：梯度为零，但不是局部极小值或极大值，存在使损失上升和下降的方向。
局部极大值：梯度为零，且该点周围的损失都较低。

判断临界点：
使用泰勒级数近似损失函数，通过海森矩阵分析二阶微分。
海森矩阵的特征值分析：

正定矩阵：所有特征值都为正，表示局部极小值。
负定矩阵：所有特征值都为负，表示局部极大值。
特征值正负混合：表示鞍点。

逃离鞍点的方法：
理论上，可以通过计算海森矩阵的特征向量来逃离鞍点，但实际上这种方法计算量大，不常用。
实践中，通常使用其他优化技术，如动量方法或自适应学习率。

实验观察：
在高维参数空间中，局部极小值不常见，鞍点更为普遍。

3.2 批量和动量

批量处理：
计算梯度时，将数据分成批量处理，每个批量包含B个样本。

批量大小对梯度下降法的影响：
批量梯度下降法（BGD）：使用全部数据计算梯度，更新稳定但计算量大。
随机梯度下降法（SGD）：使用单个样本计算梯度，更新方向嘈杂但易于逃离局部最小值。

动量法：
动量法（SGDM）模拟物理世界中的惯性，通过结合当前梯度和之前更新的方向来更新参数。

自适应学习率：
自适应学习率方法如Adam和RMSprop，可以调整学习率，帮助模型更快收敛。

在实际使用中来看，使用SGD通常需要更为细致的调参，而Adam等自适应学习率的优化器直接使用也可以取得不错的训练效果，因此对初学者更为友好。

3.3 自适应学习率

自适应学习率的优化算法能够根据参数更新的历史自动调整学习率。

动量法的数学表达：

动量更新公式：
参数更新公式：

动量法的优势：

动量法可以帮助模型在误差表面更平滑地移动，减少震荡，提高收敛速度。
批量大小与性能：
实验表明，小批量在测试集上的表现通常优于大批量。
大批量可能导致过拟合，而小批量有助于找到更广泛的最小值。

总结：
深度学习中的优化问题复杂多变，理解局部极小值与鞍点、批量处理、动量法以及自适应学习率等概念对于设计有效的优化策略至关重要。通过实验观察，我们可以发现在高维参数空间中，局部极小值并不常见，而鞍点更为普遍。动量法和自适应学习率方法为逃离鞍点提供了有效的手段。此外，批量大小的选择对模型的训练和泛化能力有显著影响，小批量通常在测试集上表现更好。

更为详细地内容还是结合李宏毅老师的教材与视频课程进行学习，本文只是对主要内容进行概括总结。

参考文献

1.https://www.bilibili.com/video/BV1JA411c7VT/?p=5
2.https://github.com/datawhalechina/leedl-tutorial

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。