多个隐藏层深度神经网络的构建

最新推荐文章于 2025-06-08 01:43:32 发布

原创最新推荐文章于 2025-06-08 01:43:32 发布 · 670 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #深度学习

本文介绍了在Coursera吴恩达课程中关于构建多隐藏层深度神经网络的内容。讨论了正向传播和反向传播的公式，强调理解整体框架而非深入公式推导。还提及了参数初始化，特别是权重矩阵W[i]和偏置b[i]的形状，以及如何根据隐藏层节点数确定它们。最后，鼓励读者参照单层隐藏层网络的设计来实现多层网络。

多个隐藏层深度网络的构建

cousera上吴恩达老师的第四周作业做完了。

除了明显为个人手写并用手机拍摄，以下提供的图片都来自吴恩达老师课件的截图

通过前面单个隐藏层的学习后，很容易联想到多个隐藏层的神经网络应当长得如下。（输入不限，中间隐藏层不限，在后面学习中还听说吴恩达老师说到有哪个公司用152层还是150几层的神经网络实现了不错的功能）
在这里插入图片描述

要点
1.很容易想到的是公式的问题，假设我们要推导 $n^{[i]}$ 层的公式，很容易得出如下：

正向传播公式：
$Z^{[i]}=W^{[i]}A^{[i-1]}+b^{[i]}$ $A[i]=σ(Z[i])A{[i]}=\sigma(Z^{[i]})$

反向传播公式：
$dW^{[l]} = \frac{\partial \mathcal{L} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T}$ $db^{[l]} = \frac{\partial \mathcal{L} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}$ $dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]}$ $dZ^{[l]} = dA^{[l]} * g'(Z^{[l]})$
ps:本人并没有去深究这些公式的推导，个人比较看重整个框架的理解，所以也就没拿大力气去推导。刚开始很苦恼这个求这个 $d A 干什么$ ，才知道就像原来的 $d b$ 要用到 $d Z$ 一样，这次是 $d Z$ 要用到 $d A$ ，而 $d b$ 要用到 $d Z$ ，所以要求到 $d A$

2.参数的初始化问题
假设 $X$ 形状为 $(n, m)$ , $W^{[1]}$ 形状为 $(k, n)$ ，则计算出来的 $A^{[1]}$ 形状将是 $(k, m)$
再往下 $A^{[1]}$ 形状为 $(k, m)$ , $W^{[2]}$ 形状为 $(l, k)$ ，则计算出来的 $^A{[2]}$ 形状将是 $(l, m)$
…