吴恩达深度学习第一课第四周（深层神经网络）

最新推荐文章于 2021-08-10 22:48:12 发布

原创最新推荐文章于 2021-08-10 22:48:12 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

吴恩达深度学习专栏收录该内容

5 篇文章

订阅专栏

本文介绍了吴恩达深度学习课程中关于深层神经网络的内容，包括前向传播的计算过程，核对矩阵的维数，深层表示的优势，以及在编程实现中如何缓存中间变量以优化反向传播。同时，讲解了前向传播和反向传播的公式，以及参数和超参数的区别。

打卡（1）

4.1 深层神经网络

这里写图片描述
* 符号约定：输入层 $X=a^{[0]} ,预测值\hat{y}=a^{[L]}$

打卡（2）

4.2 深层网络中前向传播

这里写图片描述
单个样本：
$X=a^{[0]}$
$Z^{[1]}=W^{[1]}a^{[0]}+b^{[1]}$
$a^{[1]}=g^{[1]}(Z^{[1]})$ 第一层
$Z^{[2]}=W^{[2]}a^{[1]}+b^{[2]}$
$a^{[2]}=g^{[2]}{Z^{[2]}}$ 第二层
…..
$Z^{[4]}=W^{[4]}a^{[3]}+b^{[4]}$
$a^{[4]}=g^{[4]}{Z^{[4]}}=\hat{y} 第四层$

$Z^{[l]}=W^{[l]}a^{[l-1]}+b^{[l]}$
$a^{[l]}=g^{[l]}{Z^{[l]}}$
所有样本：
$Z^{[1]}=W^{[1]}A^{[0]}+b^{[1]}$
$A^{[1]}=g^{[1]}(Z^{[1]})$ 第一层
$Z^{[2]}=W^{[2]}A^{[1]}+b^{[2]}$
$A^{[2]}=g^{[2]}{Z^{[2]}}$ 第二层
…….

4.3 核对矩阵的维数

假定：输入层的维度为 $n^{[0]}$ ，隐藏层第一层为 $n^{[1]}$ ，第二层 $n^{[2]}$ ，…..。
则：
第一层的权重 $W^{[1]}:(n^{[1]},n^{[0]}), 截距b^{[1]}:(n^{1},1)$
第二层的权重 $W^{[1]}:(n^{[2]},n^{[1]}),截距b^{[2]}:(n^{2},1)$
…..
$W^{[l]}:(n^{[l]},n^{[l-1]})$
$b^{[l]}:(n^{l},1)$
同样反向传播时：
$dW^{[l]}与W^{[l]}有同样的维度:(n^{[l]},n^{[l-1]})$
$db^{[l]}与b^{[l]}有同样的维度:(n^{[l]},n^{[l-1]})$
这里写图片描述

单个样本的计算:
$Z^{[1]}=W^{[1]}X+b^{[1]}$
其中， $Z^{[1]}$ 的维度是 $（n^{[1]},1）$ ， $W^{[1]}$ 的维度是 $（n^{[1]},n^{[0]})，$ X的维度是 $（n^{[0]},1)$ ， $b^{[1]}$ 的维度是 $（n^{[1]},1）$ ;
对于整个训练集（m个样本):
$Z^{[1]}$ 的维度为 $（n^{[1]},m）$ ， $W^{[1]}$ 的维度是 $(n^{[1]},n^{[0]})$ ， $X$ 的维度是 $(n^{[0]},m)$ ， $b^{[1]}$ 的维度是 $(n^{[1]},m)$ .

$Z^{[l]}$ ， $a^{[l]}$ : $（n^{[l]},1）$
$Z^{[l]}$ ， $A^{[l]}$ : $(n^{[l]},m)$
$l=0$ 时， $A^{[0]}=X=(n^{[0]},m)$
$dz^{[l]}，dA^{[l]}：（n^{[l]},m）$

4.4 为什么使用深层表示

深度神经网络并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层

4.5 搭建深层神经网络块

这里写图片描述
编程过程中需要将 $Z^{[l]}，W^{[l]}，b^{[l]}$ 缓存，在反向传播时可直接使用，节省时间

4.6 前向和反向传播

前向传播：
这里写图片描述
后向传播
$损失函数：L=f(\hat{y},y)，\hat{y}=a^{[l]}$
$"da^{[l]}"=\frac{dL}{da^{[l]}}$
$"dZ^{[l]}"=\frac{da}{dZ}="da^{[l]}"*g^{[l]'}(Z^{[l]})$
$"dW^{[l]}"="dZ"*\frac{dZ}{dW^{[l]}}="dZ^{[l]}"a^{[l-1]}$
$"db^{[l]}"="dZ"*\frac{dZ}{db^{[l]}}="dZ^{[l]}"$
$"da^{[l-1]}"="dZ"*\frac{dZ}{da^{[l-1]}}=W^{[l]T}"dZ^{[l]}"$
求 $"da^{l-1}"时W^{[l]}$ 需要转置，因为 $"da^{[l-1]}"$ 维度为 $(n^{[l-1]},1)$ ， $W^{[l]}$ 维度为 $（n^{[l]},n^{[l-1]})$ ， $"dZ^{[l]}"$ 维度为 $(n^{[l]},1)$
这里写图片描述