吴恩达教授在Coursera课程Deeplearning关于矩阵维度总结

最新推荐文章于 2021-01-04 13:05:32 发布

原创最新推荐文章于 2021-01-04 13:05:32 发布 · 718 阅读

5 ·

CC 4.0 BY-SA版权

Mlliu/CourseraDeeplearning 专栏收录该内容

1 篇文章

订阅专栏

本文详细解析了吴恩达教授在Coursera课程Deeplearning中关于两层神经网络的前向传播和反向传播过程中各计算公式的矩阵维度。通过具体的公式和维度展示，帮助读者更好地理解神经网络的工作原理。

吴恩达教授在Coursera课程Deeplearning关于矩阵维度总结

在Deeplearning这门课程第一周的第三节课：Shallow Neural Networks上，以两层神经网络分析 forward propagation和back propagation各计算公式的矩阵维度。
根据如下的神经网络架构：
这里写图片描述

1. Forward propagation

1.1 公式1

Z [1] = W [1] X + b [1] (1)

$Z ^ {[1]} = W ^{[1]} \ X + b^{[1]} \tag {1}$

公式	$Z [1]$ $Z ^ {[1]}$	$W [1]$ $W ^{[1]}$	$X$ $X$	$b [1]$ $b^{[1]}$
维度	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(n [1] \times n [0])$ $(n^{[1]}\times n^{[0]})$	$(n [0] \times m)$ $(n^{[0]}\times m)$	$(n [1] \times m)$ $(n^{[1]}\times m)$

备注：

$m$ 是样本数

1.2 公式2

A [1] = g [1] * (Z [1]) (2)

$A ^ {[1]} = g ^{[1]}* (Z^{[1]}) \tag {2}$

公式	$A [1]$ $A ^ {[1]}$	$Z [1]$ $Z ^{[1]}$
维度	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(n [1] \times m)$ $(n^{[1]}\times m)$

备注：

符号 $\ * \$ 是矩阵点乘操作
$g^{[1]} \$ 可以是 $\ sigmoid 、tanh、或者Relu \$ 函数

1.3 公式3

Z [2] = W [2] A [1] + b [2] (3)

$Z ^ {[2]} = W ^{[2]} \ A ^ {[1]} + b^{[2]} \tag {3}$

公式	$Z [2]$ $Z ^ {[2]}$	$W [2]$ $W ^{[2]}$	$A [1]$ $A ^ {[1]}$	$b [2]$ $b^{[2]}$
维度	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [2] \times n [1])$ $(n^{[2]}\times n^{[1]})$	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(n [2] \times m)$ $(n^{[2]}\times m)$

备注：

在神经网络中，每一组 $\ W \$ 参数都是一行，与每一列 $\ A \$ 相乘；在Logistic Regression中， $\ W \$ 只有一列，是列向量，所以会写成 $\ Z = W ^{T} \ X + b \$ 的形式。

1.4 公式4

A [2] = g [2] * (Z [2]) (4)

$A ^ {[2]} = g ^{[2]}* (Z^{[2]}) \tag {4}$

公式	$A [1]$ $A ^ {[1]}$	$Z [1]$ $Z ^{[1]}$
维度	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [2] \times m)$ $(n^{[2]}\times m)$

备注：

符号 $\ * \$ 是矩阵点乘操作
$g^{[2]} \$ 一般是 $\ sigmoid \$ 函数（二分类）

2. Back propagation

2.1 公式5

d Z [2] = A [2] - Y (5)

$dZ ^ {[2]} = A^{[2]} - Y \tag {5}$

公式	$d Z [2]$ $dZ ^ {[2]}$	$A [2]$ $A^{[2]}$	$Y$ $Y$
维度	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [2] \times m)$ $(n^{[2]}\times m)$

备注：

$A^{[2]}$ 中的每一个元素在链式求导时都作为一个变量，所以维度是 $(n^{[2]}\times m)$
如果是二分类，则 $n^{[2]} =1 , Y = [y^{(1)} \quad y^{(2)} \ ... \ y{(m)}]$
默认 $g^{[2]}$ 函数是 $sigmoid$ 函数

2.2 公式6

d W [2] = 1 m d Z [2] A [1] T (6)

$dW ^ {[2]} = \frac{1}{m} dZ ^ {[2]} A^{[1]T} \tag {6}$

公式	$d W [2]$ $dW ^ {[2]}$	$d Z [2]$ $dZ ^ {[2]}$	$A [1] T$ $A^{[1]T}$
维度	$(n [2] \times n [1])$ $(n^{[2]}\times n^{[1]})$	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(m \times n [1])$ $( m\times n^{[1]})$

备注：

$\ W^{[2]} \$ 中的每个元素都是 $\ dZ^{[2]} \$ 中的每一行与 $\ A^{[1]T} \$ 中的每一列相乘的结果。每一个乘法的是意思的链式求导，相乘之后的加法意义是在计算 $\ W^{[2]} \$ 每个参数的梯度时，将m个样本的loss相加，即： $\ \frac{∂Lost}{∂W_{ij}}=\frac{1}{m} \sum{loss} \$

2.3 公式7

d b [2] = 1 m n p . s u m (d Z [2], a x i s = 1, k e e p d i m s = T r u e) (7)

$db ^ {[2]} = \frac{1}{m} np.sum( dZ ^ {[2]} ,axis \ = 1,keepdims = True) \tag {7}$

公式	$d b [2]$ $db ^ {[2]}$
维度	$(n [2] \times 1)$ $(n^{[2]}\times 1)$

2.4 公式8

d Z [1] = W [2] T d Z [2] * g [1]' (Z [1]) (8)

$dZ ^ {[1]} = W^{[2]T} dZ^{[2]}* g^{[1]'}(Z^{[1]}) \tag {8}$

公式	$d Z [1]$ $dZ ^ {[1]}$	$W [2] T$ $W^{[2]T}$	$d Z [2]$ $dZ^{[2]}$	$g [1]' (Z [1])$ $g^{[1]'}(Z^{[1]})$
维度	$(n [1] \times m)$ $(n^{[1]}\times m)$	$(n [1] \times n [2])$ $(n^{[1]}\times n^{[2]})$	$(n [2] \times m)$ $(n^{[2]}\times m)$	$(n [1] \times m)$ $(n^{[1]}\times m)$

备注：

符号 $\ * \$ 是矩阵点乘操作
$g^{[1]} \$ 一般是 $\ sigmoid \$ 函数（二分类）
当 $g^{[1]} = sigmoid ，g^{[1]'} = g^{(1)}(1-g^{(1)}) ; \quad$
当 $g^{[1]} = tanh ，g^{[1]'} = (1-g^{(1)2}) ; \quad$
当 $g^{[1]} = Relu , max(0,Z) ， \quad$

$g [1]' = {0 i f Z < 0 1 i f Z ⩾ 0$ $g^{[1]'}=\left\{ \begin{aligned} 0 \quad if \ Z \ < \ 0 \\ 1 \quad if \ Z \ \geqslant \ 0 \\ \end{aligned} \right.$
当 $g^{[1]} = Relu , max(0.01Z,Z) ， \quad$

$g [1]' = {0.01 i f Z < 0 1 i f Z ⩾ 0$ $g^{[1]'}=\left\{ \begin{aligned} 0.01 \quad if \ Z \ < \ 0 \\ 1 \quad if \ Z \ \geqslant \ 0 \\ \end{aligned} \right.$