吴恩达深度学习(二)之改善深层神经网络:超参数调试、正则化以及优化

本文深入探讨了深度学习中的实用层面,包括训练集、验证集和测试集的比例选择,以及如何处理偏差与方差。重点介绍了正则化技术,如L1、L2正则化和dropout,以及数据增强和早期停止策略。同时,文章讨论了梯度消失与爆炸的问题,提出了解决方案。在优化算法方面,讲解了Mini-batch、动量梯度下降、RMSprop和Adam算法,以及学习率衰减的重要性。最后,超参数调试和Batch正则化的概念也被提及,特别强调了指数尺标在选择超参数范围时的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第一周深度学习的实用层面

训练集,交叉验证和测试集的比例选择

1.对于小规模数据时,10000及其以下,可以使用6:2:2
2.对于大规模数据时,一百万及其以上,应该使用98:1:1 or 99.5:0.4:0.1

偏差与方差

检测规则

训练集,交叉验证集,测试集要来自同一分布,例如图像识别中所有这三者的图片大小应完全相同

种类

高偏差(欠拟合):训练集和交叉验证集误差都很高,但是比较接近
高方差(过拟合):训练集误差很小,交叉验证集误差很大
高偏差和高方差同时存在:训练集和交叉验证集误差都很大,并且二者误差相距很远
正确拟合:训练集和交叉验证集误差都很小
注意,也可以用准确率误差来表示,如下图所示:
在这里插入图片描述

正则化(解决 overfitting)

正则化输入

如果输入特征之间的范围变化过大,那么要归一化
即X-X.mean()/X.var()

L1,L2正则化

运用于逻辑回归(L1 AND L2)

在这里插入图片描述
注意:L1正则化会导致最后出现很多W向量为0(W最终会稀疏),不太常用

运用于神经网络(L2)

图中W矩阵维度反了
在这里插入图片描述
关于该式的推导即是(一)中的计算图的一点小变形,推导如下:
C O S T = L ( A [ L ] , Y ) + λ 2 m ∑ l = 1 L ∥ w [ l ] ∥ 2 COST = L({A^{[L]}},Y) + \frac{\lambda }{ {2m}}{\sum\limits_{l = 1}^L {\left\| { {w^{[l]}}} \right\|} ^2} COST=L(A[L],Y)+2mλl=1Lw[l]2
d W [ l ] = ∂ L

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值