吴恩达深度学习第一课第四周(深层神经网络)

本文介绍了吴恩达深度学习课程中关于深层神经网络的内容,包括前向传播的计算过程,核对矩阵的维数,深层表示的优势,以及在编程实现中如何缓存中间变量以优化反向传播。同时,讲解了前向传播和反向传播的公式,以及参数和超参数的区别。

打卡(1)

4.1 深层神经网络

这里写图片描述
* 符号约定:输入层X=a[0],ŷ =a[L]X=a[0],预测值y^=a[L]

打卡(2)

4.2 深层网络中前向传播

这里写图片描述
单个样本:
X=a[0]X=a[0]
Z[1]=W[1]a[0]+b[1]Z[1]=W[1]a[0]+b[1]
a[1]=g[1](Z[1])a[1]=g[1](Z[1]) 第一层
Z[2]=W[2]a[1]+b[2]Z[2]=W[2]a[1]+b[2]
a[2]=g[2]Z[2]a[2]=g[2]Z[2] 第二层
…..
Z[4]=W[4]a[3]+b[4]Z[4]=W[4]a[3]+b[4]
a[4]=g[4]Z[4]=ŷ a[4]=g[4]Z[4]=y^第四层

Z[l]=W[l]a[l1]+b[l]Z[l]=W[l]a[l−1]+b[l]
a[l]=g[l]Z[l]a[l]=g[l]Z[l]
所有样本:
Z[1]=W[1]A[0]+b[1]Z[1]=W[1]A[0]+b[1]
A[1]=g[1](Z[1])A[1]=g[1](Z[1]) 第一层
Z[2]=W[2]A[1]+b[2]Z[2]=W[2]A[1]+b[2]
A[2]=g[2]Z[2]A[2]=g[2]Z[2] 第二层
…….

4.3 核对矩阵的维数

假定:输入层的维度为n[0]n[0],隐藏层第一层为n[1]n[1],第二层n[2]n[2],…..。
则:
第一层的权重W[1]:(n[1],n[0]),b[1]:(n1,1)W[1]:(n[1],n[0]),截距b[1]:(n1,1)
第二层的权重W[1]:(n[2],n[1]),b[2]:(n2,1)W[1]:(n[2],n[1]),截距b[2]:(n2,1)
…..
W[l]:(n[l],n[l1])W[l]:(n[l],n[l−1])
b[l]:(nl,1)b[l]:(nl,1)
同样反向传播时:
dW[l]W[l]:(n[l],n[l1])dW[l]与W[l]有同样的维度:(n[l],n[l−1])
db[l]b[l]:(n[l],n[l1])db[l]与b[l]有同样的维度:(n[l],n[l−1])
这里写图片描述

单个样本的计算:
Z[1]=W[1]X+b[1]Z[1]=W[1]X+b[1]
其中,Z[1]Z[1]的维度是n[1],1(n[1],1)W[1]W[1]的维度是n[1],n[0])(n[1],n[0]),X的维度是n[0],1)(n[0],1)b[1]b[1]的维度是n[1],1(n[1],1);
对于整个训练集(m个样本):
Z[1]Z[1]的维度为n[1],m(n[1],m)W[1]W[1]的维度是(n[1],n[0])(n[1],n[0])XX的维度是(n[0],m)b[1]b[1]的维度是(n[1],m)(n[1],m).

  • Z[l]Z[l]a[l]a[l]:n[l],1(n[l],1)
  • Z[l]Z[l]A[l]A[l]: (n[l],m)(n[l],m)
  • l=0l=0时,A[0]=X=(n[0],m)A[0]=X=(n[0],m)
  • dz[l]dA[l]n[l],mdz[l],dA[l]:(n[l],m)

4.4 为什么使用深层表示

深度神经网络并不需要很大的神经网络,但是得有深度,得有比较多的隐藏层

4.5 搭建深层神经网络块

这里写图片描述
编程过程中需要将Z[l]W[l]b[l]Z[l],W[l],b[l]缓存,在反向传播时可直接使用,节省时间
这里写图片描述

4.6 前向和反向传播

前向传播:
这里写图片描述
后向传播
L=f(ŷ ,y)ŷ =a[l]损失函数:L=f(y^,y),y^=a[l]
"da[l]"=dLda[l]"da[l]"=dLda[l]
"dZ[l]"=dadZ="da[l]"g[l](Z[l])"dZ[l]"=dadZ="da[l]"∗g[l]′(Z[l])
"dW[l]"="dZ"dZdW[l]="dZ[l]"a[l1]"dW[l]"="dZ"∗dZdW[l]="dZ[l]"a[l−1]
"db[l]"="dZ"dZdb[l]="dZ[l]""db[l]"="dZ"∗dZdb[l]="dZ[l]"
"da[l1]"="dZ"dZda[l1]=W[l]T"dZ[l]""da[l−1]"="dZ"∗dZda[l−1]=W[l]T"dZ[l]"
"dal1"W[l]"dal−1"时W[l]需要转置,因为"da[l1]""da[l−1]"维度为(n[l1],1)(n[l−1],1)W[l]W[l]维度为n[l],n[l1])(n[l],n[l−1])"dZ[l]""dZ[l]"维度为(n[l],1)(n[l],1)
这里写图片描述
这里写图片描述

4.7 参数和超参数

  • 超参数在某种程度上决定了参数
    这里写图片描述
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值