
神经网络与深度学习—吴恩达
文章平均质量分 62
课程笔记
Fiona-Dong
这个作者很懒,什么都没留下…
展开
-
6. 机器学习策略 -- 1
6.1 训练/开发/测试集划分(Train/dev/test distributions) 举个例子,要开发一个猫分类器,然后在这些区域里运营,美国、英国、其他欧洲国家,南美洲、印度、中国,其他亚洲国家和澳大利亚,那么应该如何设立开发集和测试集呢? 建议的是将所有数据随机洗牌,放入开发集和测试集,所以开发集和测试集都有来自八个地区的数据,并且开发集和测试集都来自同一分布,这分布就是所有数据混在一起。 6.2 开发集和测试集的大小(Size of dev and test sets) 你可能听说过一条经验转载 2022-02-22 15:49:49 · 362 阅读 · 0 评论 -
5. 超参数调试、Batch正则化和程序框架
5.1 调试处理(Tuning process) 学习速率是需要调试的最重要的超参数。 此外,还有一些参数需要调试,例如Momentum参数,0.9就是个很好的默认值。还会调试mini-batch的大小,以确保最优算法运行有效。还会经常调试隐藏单元,用橙色圈住的这些,这三个是觉得其次比较重要的,相对于而言。重要性排第三位的是其他因素,层数有时会产生很大的影响,学习率衰减也是如此。当应用Adam算法时,事实上,我从不调试β1,β2 和 ε,我总是选定其分别为0.9,0.999和 10−810^{-8}10−转载 2022-02-09 17:41:37 · 167 阅读 · 0 评论 -
4. 优化算法 (Optimization algorithms)
4.1 理解mini-batch梯度下降法(Understanding mini-batch gradient descent) 如果mini-batch大小既不是1也不是m,应该取中间值,那应该怎么选择呢?其实是有指导原则的。 首先,如果训练集较小,直接使用batch梯度下降法,样本集较小就没必要使用mini-batch梯度下降法,你可以快速处理整个训练集,所以使用batch梯度下降法也很好,这里的少是说小于2000个样本,这样比较适合使用batch梯度下降法。不然,样本数目较大的话,一般的mini-ba转载 2022-02-08 16:41:49 · 224 阅读 · 0 评论 -
3. 深度学习的实践层面(Practical aspects of Deep Learning)
3.1 偏差,方差(Bias /Variance) 假定训练集误差是1%,为了方便论证,假定验证集误差是11%,可以看出训练集设置得非常好,而验证集设置相对较差,我们可能过度拟合了训练集,在某种程度上,验证集并没有充分利用交叉验证集的作用,像这种情况,我们称之为“高方差”。 通过查看训练集误差和验证集误差,我们便可以诊断算法是否具有高方差。也就是说衡量训练集和验证集误差就可以得出不同结论。 假设训练集误差是15%,我们把训练集误差写在首行,验证集误差是16%,假设该案例中人的错误率几乎为0%,人们浏览这些转载 2022-01-17 16:10:27 · 157 阅读 · 0 评论 -
2. 深层神经网络(Deep Neural Networks)
2.1 深层神经网络(Deep L-layer neural network) 有一个隐藏层的神经网络,就是一个两层神经网络。当我们算神经网络的层数时,我们不算输入层,我们只算隐藏层和输出层。 2.2 为什么使用深层表示?(Why deep representations?) 首先,深度网络究竟在计算什么?如果在建一个人脸识别或是人脸检测系统,深度神经网络所做的事就是,当输入一张脸部的照片,然后可以把深度神经网络的第一层,当成一个特征探测器或者边缘探测器。在这个例子里,会建一个大概有20个隐藏单元的深转载 2022-01-07 18:27:10 · 1331 阅读 · 0 评论 -
1. 激活函数(Activation functions)
1.1 激活函数(Activation functions) 选择激活函数的经验法则 如果输出是0、1值(二分类问题),则输出层选择sigmoid函数,然后其它的所有单元都选择Relu函数。 这是很多激活函数的默认选择,如果在隐藏层上不确定使用哪个激活函数,那么通常会使用Relu激活函数。有时,也会使用tanh激活函数,但Relu的一个优点是:当是负值的时候,导数等于0。 这里也有另一个版本的Relu被称为Leaky Relu。 当是负值时,这个函数的值不是等于0,而是轻微的倾斜,如图。 这个函数通常比转载 2022-01-07 18:26:14 · 550 阅读 · 0 评论