自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_66188523的博客

原创吴恩达深度学习deeplearning.ai学习笔记（二）3.1 3.2 3.3 3.4

取0.0001，0.001，0.01，0.1和1，然后分别在对数轴中这些点之间进行均匀取值，这样就能让0.0001到0.1之间有更多的搜索资源可以使用。比如在刚才的例子中，在整个方格中粗略搜索后找到了一个点效果很好，并且周围几个点效果也不错，那么接下来就是放大这周围的一小块方格区域，然后更加密集地在这个小方格区域取值，聚焦更多的资源在这片小区域中搜索。通过超参数实验的不同值，你可以选择对于训练集目标而言的最优值，或者对于开发集而言的最优值，或在超参数搜索过程中你最想优化的东西。如果你要选择神经网络的层数。

2024-10-08 15:39:50 958

原创吴恩达深度学习deeplearning.ai学习笔记（二）2.6 2.7 2.8 2.9 2.10

这种算法运行速度总是快于标准的梯度下降算法，基本思想是计算梯度的指数加权平均数并利用该梯度来更新你的权重；假设你要优化一个下图的成本函数，红点是最小值，假设从一点开始进行梯度下降法，如果进行梯度下降法的第一次迭代，无论是batch还是mini-batch，可能都会指向椭圆的另一边：然后在椭圆的另一边执行第二次梯度下降，可能又回到原来这边：然后如此反复走下去，慢慢摆动到最小点，这需要许多计算步骤，或者说需要很多次梯度下降，因为这种上下摆动减慢了梯度下降法的速度；

2024-08-09 10:54:31 1205

原创吴恩达深度学习deeplearning.ai学习笔记（二）2.3 2.4 2.5

后面的算法需要用到指数加权平均，在统计中也叫指数加权移动平均，所以先讲这个；老吴生在英国，他拿到了英国去年伦敦每一天的气温数据，比如第一天是40华氏度……用数据作图，结果如下：如果要计算趋势的话，也就是温度的局部平均值（或者说移动平均值），你要先让，然后之后的每天温度需要用0.9的加权数乘之前一天的温度，在加上0.1的加权数乘以当日温度：然后按此公式将计算完后画在图中，便得到如红线所示的结果，这个结果叫每日温度的移动平均值，也可以叫指数加权平均值：那么进一步将。

2024-08-07 19:34:27 1046

原创吴恩达深度学习deeplearning.ai学习笔记（二）2.1 2.2

对神经网络的第层而言：然后要一层一层地传递将整个神经网络的参数都更新；

2024-08-07 15:35:11 748

原创吴恩达深度学习deeplearning.ai学习笔记（二）1.9 1.10 1.11 1.12 1.13 1.14

零均值化、归一化为标准方差（即1）、确保特征都在相似范围内，通常就可以帮助学习算法运行得更快；

2024-08-05 19:56:32 865

原创吴恩达深度学习deeplearning.ai学习笔记（二）1.4 1.5 1.6 1.7 1.8

正则化应该是你在遇到高方差时首先要想到的方法，虽然另一个方法获得更多数据来增大训练集的数据量也非常好用，但并非时时能如此做，且获取数据的成本通常比较高；

2024-08-05 12:37:08 955

原创吴恩达深度学习deeplearning.ai学习笔记（二）1.1 1.2 1.3

训练神经网络时，要做的决策很多：最佳决策取决于很多因素：你所拥有的数据量、计算机配置中输入特征的数量、用GPU还是CPU训练、具体配置……不可能一开始就预设出最匹配的超参数，循环“Idea-Code-Experiment”这过程的效率是决定项目进展速度的一个关键因素，而创建高质量的训练数据集、开发集、测试集也有助于提高循环效率；数据集被分为哪三个部分？有什么作用？比例是多少？训练集验证集，也叫简单交叉验证集。

2024-08-03 16:11:07 917

原创吴恩达深度学习deeplearning.ai学习笔记（一）4.1~4.8

表示神经网络的层数；表示第层上的单元数量，；表示第层中的激活函数值，也是第层输出的函数值，，而第层输入的函数值是，神经网络最后的输出；是计算值的权重；有些函数只有用非常深层的神经网络才能学习，实际中难以判断，一般最开始可以试试logistic回归，再试试单隐层、双隐层，再将隐层数当作超参数，然后再开发集上评估；

2024-08-02 20:22:19 505

原创吴恩达深度学习deeplearning.ai学习笔记（一）3.9 3.10 3.11

对于单隐层神经网络而言，主要参数就是，并且输入特征的维度可以记为，第一层有个隐藏单元，第二层有个输出单元，目前仅仅见过只有一个输出单元的情况；的维度是的维度是的维度是的维度是，成本函数为：训练神经网络时，随机初始化参数很重要，而不是全令其为0；每个梯度下降循环都要计算的预测值，即，然后要计算导数，即，最后更新参数，即正向传播过程为：那么反向传播求导数的方程怎么写？假设我们在做二元分类，则，方程如下：版本：m个样本Back Prop#注意。

2024-08-02 12:21:58 458

原创吴恩达深度学习deeplearning.ai学习笔记（一）3.4 3.6 3.7 3.8

记住一条原则：横向堆叠就可遍历不同样本；版本2：Vectorized这些矩阵的维度怎么判断？首先从入手，显然是的矩阵；，它的列数是，而它的行数是，表示第一层的隐藏单元数；，它的列数是1，而它的行数是；，它的列数等于m，它的行数等于；的维数与保持一致；，它的列数等于，它的行数等于1，也等于是巧合吗？，是一个数，但是也可以说它的列数是1，而它的行数等于是巧合吗？，它的列数等于m，它的行数等于1，也等于；，它的维度与保持一致；

2024-08-02 08:55:11 511

原创吴恩达深度学习deeplearning.ai学习笔记（一）3.1 3.2 3.3

一个典型的logistic回归如上图所，但这是计算图，并不是神经网络图；为了简化，假设是三维的即，并将logistic回归画成神经网络图：输入层由输入特征组成，也叫第0层，一般不计入神经网络层数，所以单个logistic回归就是单层神经网络，一般将输入层记为：圆形叫做节点，一个节点包含了两种运算：第一层运算：第二层运算：并且这个节点的输入是，输出是；方括号[]和它里面的数字表示了这是哪一层的参数；不改变节点对应的计算，让它变得复杂一些：第0层仍然是输入层；

2024-08-01 21:14:40 955

原创吴恩达深度学习deeplearning.ai学习笔记（一）2.11 2.12 2.13 2.15 2.16 2.17

就相当于完成了所需的次操作；编程时，用表示转置后的矩阵，用表示两矩阵相乘；于是用一行代码就可以代替上面。

2024-08-01 17:30:44 960

原创吴恩达深度学习deeplearning.ai学习笔记（一）2.7 2.9 2.10

其实在2.9节也早就求过了，当时是单样本下写成这样的：现在只不过要带上标了，以第个样本为例，扩展到。

2024-08-01 14:30:58 448

原创吴恩达深度学习deeplearning.ai学习笔记（一）2.1 2.2 2.3 2.4

如果定义为，当你学习这些参数时，后面讨论优化问题时会发现函数是非凸的，最后会得到很多个局部最优解，在使用梯度下降法时可能找不到全局最优值；当然有人也去研究了非凸函数的优化，建议看看老吴的采访视频，有很多启发；我们通过定义损失函数来衡量你的预测输出值和实际值有多么接近，一般设计成损失函数的值越小，代表接近效果越好，常用的logistic回归的损失函数定义为：一个粗浅的理解是枚举，如果，则，训练时会往损失函数降低的方向前进，当损失函数尽量小时，会尽量大，

2024-08-01 11:26:39 951

原创吴恩达深度学习deeplearning.ai学习笔记（一）1.2 1.3 1.4

表示输入特征。

2024-07-31 23:30:57 375

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除