deeplearning.ai学习笔记：第一课第四周_deep learning第四周-优快云博客

本文链接：https://blog.youkuaiyun.com/cdknight_happy/article/details/85077086

本文深入讲解深度神经网络的参数与超参数，探讨深层表示的优势，以及如何通过前向与反向传播实现网络训练。理解神经元如何从简单特征到复杂特征的组合，揭示深层网络的强大函数拟合能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 深层神经网络

在这里插入图片描述
参数：
$W[l]∈Rnl×nl−1W^{[l]} \in R^{n_l \times n_{l-1}}$
$b[l]∈Rnl×1b^{[l]} \in R^{n_l \times 1}$
$dW[l]∈Rnl×nl−1dW^{[l]} \in R^{n_l \times n_{l-1}}$
$db[l]∈Rnl×1db^{[l]} \in R^{n_l \times 1}$

$Z[l]∈Rnl×mZ^{[l]} \in R^{n_l \times m}$
$A[l]∈Rnl×mA^{[l]} \in R^{n_l \times m}$
$dZ[l]∈Rnl×mdZ^{[l]} \in R^{n_l \times m}$
$dA[l]∈Rnl×mdA^{[l]} \in R^{n_l \times m}$

深度学习块：

在这里插入图片描述

前向运算：
输入： $Z^{[l]}$ , $W^{[l]}$ , $b^{[l]}$
输出： $A^{[l]}$

$Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]}$
$A^{[l]} = g^{[l]}(Z^{[l]})$

输出是 $A^{[l]}$ ，但是 $Z^{[l]}$ 要暂存起来以便进行反向运算的梯度计算。

反向运算：
输入： $dA^{[l]}$ 和缓存的 $Z^{[l]}$
输出： $dA^{[l-1]}$ , $dW^{[l]}$ , $db^{[l]}$
$dZ[l]=dA[l]∗g[l]′(Z[l])dZ^{[l]} = dA^{[l]}*{g^{[l]}}^{'}(Z^{[l]})$
$dW[l]=1mdZ[l]A[l−1]TdW^{[l]} = \frac{1}{m}dZ^{[l]}{A^{[l-1]}}^T$
$db[l]=1mnp.sum(dZ[l],axis=1,keepdims=True)db^{[l]} = \frac{1}{m}np.sum(dZ^{[l]},axis=1,keepdims=True)$
$dA^{[l-1]}={W^{[l]}}^TdZ^{[l]}$

深度学习网络：
在这里插入图片描述
前向运算：

$X = A^{[0]}$

$f o r l i n 1, . . ., L :$
$Z^{[l]} = W^{[l]}A^{[l-1]} + b^{[l]}$
$A^{[l]} = g^{[l]}(Z^{[l]})$

反向运算：
反向运算的输入是损失函数对 $a^{[L]}$ ，也就是 $y^\hat{y}$ 的导数。之所以有 $1m\frac{1}{m}$ ，是因为m个样本均与各个神经元的参数进行了乘积/相加运算。

$f o r l i n L, . . ., 1 :$
$dZ[l]=dA[l]∗g[l]′(Z[l])~~~~dZ^{[l]} = dA^{[l]}*{g^{[l]}}^{'}(Z^{[l]})$
$dW[l]=1mdZ[l]A[l−1]T~~~~dW^{[l]} = \frac{1}{m}dZ^{[l]}{A^{[l-1]}}^T$
$db[l]=1mnp.sum(dZ[l],axis=1,keepdims=True)~~~~db^{[l]} = \frac{1}{m}np.sum(dZ^{[l]},axis=1,keepdims=True)$
$dA^{[l-1]}={W^{[l]}}^TdZ^{[l]}$