Datawhale AI训练营--深度学习进阶

之前虽然接触过cv相关的深度学习模型,但通常是需要什么才学什么,因此希望借Datawhale的这个机会系统地学习一下深度学习基础。

3.1 局部极小值与鞍点

概念引入:
在深度学习中,优化神经网络时可能会遇到损失不再下降的情况,这通常与局部极小值或鞍点有关。之前遇到局部极小值震荡时并未考虑到鞍点的情况。

临界点种类:

  • 局部极小值:梯度为零,且该点周围的损失都较高。
  • 鞍点:梯度为零,但不是局部极小值或极大值,存在使损失上升和下降的方向。
  • 局部极大值:梯度为零,且该点周围的损失都较低。

判断临界点:
使用泰勒级数近似损失函数,通过海森矩阵分析二阶微分。
海森矩阵的特征值分析:

  • 正定矩阵:所有特征值都为正,表示局部极小值。
  • 负定矩阵:所有特征值都为负,表示局部极大值。
  • 特征值正负混合:表示鞍点。

逃离鞍点的方法:
理论上,可以通过计算海森矩阵的特征向量来逃离鞍点,但实际上这种方法计算量大,不常用。
实践中,通常使用其他优化技术,如动量方法或自适应学习率。

实验观察:
在高维参数空间中,局部极小值不常见,鞍点更为普遍。

3.2 批量和动量

批量处理:
计算梯度时,将数据分成批量处理,每个批量包含B个样本。

批量大小对梯度下降法的影响:
批量梯度下降法(BGD):使用全部数据计算梯度,更新稳定但计算量大。
随机梯度下降法(SGD):使用单个样本计算梯度,更新方向嘈杂但易于逃离局部最小值。

动量法:
动量法(SGDM)模拟物理世界中的惯性,通过结合当前梯度和之前更新的方向来更新参数。

自适应学习率:
自适应学习率方法如Adam和RMSprop,可以调整学习率,帮助模型更快收敛。

在实际使用中来看,使用SGD通常需要更为细致的调参,而Adam等自适应学习率的优化器直接使用也可以取得不错的训练效果,因此对初学者更为友好。

3.3 自适应学习率

自适应学习率的优化算法能够根据参数更新的历史自动调整学习率。

动量法的数学表达:

  • 动量更新公式: 在这里插入图片描述

  • 参数更新公式:在这里插入图片描述

动量法的优势:

  • 动量法可以帮助模型在误差表面更平滑地移动,减少震荡,提高收敛速度。
    批量大小与性能:
  • 实验表明,小批量在测试集上的表现通常优于大批量。
  • 大批量可能导致过拟合,而小批量有助于找到更广泛的最小值。

总结:
深度学习中的优化问题复杂多变,理解局部极小值与鞍点、批量处理、动量法以及自适应学习率等概念对于设计有效的优化策略至关重要。通过实验观察,我们可以发现在高维参数空间中,局部极小值并不常见,而鞍点更为普遍。动量法和自适应学习率方法为逃离鞍点提供了有效的手段。此外,批量大小的选择对模型的训练和泛化能力有显著影响,小批量通常在测试集上表现更好。

更为详细地内容还是结合李宏毅老师的教材与视频课程进行学习,本文只是对主要内容进行概括总结。

参考文献

1.https://www.bilibili.com/video/BV1JA411c7VT/?p=5
2.https://github.com/datawhalechina/leedl-tutorial

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值