吴恩达深度学习课程第二部分笔记要点

本文介绍如何通过调整超参数提升深度学习模型性能,包括利用验证集判断偏差与方差问题、Dropout层的作用与使用场景、不同梯度下降方法的特点及适用情况、Batch Normalization的应用等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >



1-通过迭加计算训练集上的error来判断是否high bias,利用验证集上的error判断是否high variance;


2-测试阶段不用Dropout层;Dropout层是用于预防overfitting的正则化方法;

代价函数J对于Dropout层未明确定义,为检查梯度是否一直下降,需关闭Dropout层或将参数设为1;


3-gradient check只用于debug,不与Dropout同时使用;


4-mini-batch gradient descent适合样本数2000以上的数据集;

batch size 一般在64-512之间,最好为2的次方(运行速度更快);

使用mini-batch后画出的loss曲线会有小波动,并不是一直在严格下降;


5-Gradient Descent with Momentum 比纯梯度下降效果更好,beta通常取0.9;


6-RMSprop=Root Mean Square Prop, hyperparametres := alpha, beta1, epsilon; 


7-Adam(Adaptive Moment Estimation):= RMSprop + Momentum, 

hyperparametres := alpha, beta1=0.9, beta2=0.999, epsilon=10e-8;


8-超参数重要性:

学习速率alpha >  momentum(0.9), #hidden units, mini-batch size  > #layers, learning rate decay > Adam(beta1=0.9, beta2=0.999, epsilon=10e-8);


9-超参数数量较少时,随机取值组合法,不要在网格中均匀取值;逐渐缩小范围,由粗略搜索到精细搜索;


10-学习速率按对数坐标系均匀取值:0.0001, 0.001, 0.01,...;


11-指数平均值beta按(1-beta)对数轴均匀取值:0.9, 0.99, 0.999,...;


12-超参数训练实践:一次训练一个模型并加以优化-vs-同时训练好几个模型并比较优劣;


13-Batch Normalization: 在应用激活函数前对隐藏层输出进行归一化操作,以加速训练。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GottdesKrieges

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值