Deep learning I - III Shallow Neural Network - Backpropagation intuition反向传播算法启发

最新推荐文章于 2024-06-24 16:20:40 发布

dqhl1990

最新推荐文章于 2024-06-24 16:20:40 发布

阅读量303

点赞数

分类专栏：深度学习算法 deep learning python 文章标签：反向传播算法推导

算法同时被 3 个专栏收录

34 篇文章

订阅专栏

深度学习

29 篇文章

订阅专栏

deep learning

29 篇文章

订阅专栏

本文详细解析了简单两层神经网络的反向传播过程，包括损失函数、激活函数及其导数的计算，以及权重和偏置的更新公式。

Backpropagation intuition

简单的2层浅神经网络，第一层的activation function为 $tanh(z)$ ，第二层的activation function为 $sigmoid(z)$ 。
神经网络architecture如下图：
这里写图片描述
使用计算流图(computational graphs)表示如下图：

这里写图片描述

在下面的公式中, $\log a^{[2]} \ {\rm means} \ \ln a^{[2]}$ ； ${\rm d}a^{[2]},{\rm d}z^{[2]}$ 等等是标记相应的导数的符号；并且，下面的公式是单个instance的，并没有矩阵化。

L (a [2], y) = - y log a [2] - (1 - y) log (1 - a [2]) (1.1)

${\cal L}(a^{[2]}, y) = -y\log a^{[2]}-(1-y)\log (1-a^{[2]})\tag{1.1}$

d a [2] [1 \times 1] = d d a [ 2 ] L (a [2], y) = - y a [ 2 ] + 1 - y 1 - a [ 2 ] (1.2)

${\rm d}a^{[2]}_{[1\times1]}=\frac{{\rm d}}{{\rm d}a^{[2]}}{\cal L}(a^{[2]}, y) = -\frac{y}{a^{[2]}} + \frac{1-y}{1-a^{[2]}}\tag{1.2}$

g (z [2]) = s i g m o i d (z [2]) = a [2] (1.3)

$g(z^{[2]}) = sigmoid(z^{[2]}) = a^{[2]}\tag{1.3}$

d z [2] [1 \times 1] = d d z [ 2 ] L (a [2], y) = d d a [ 2 ] L (a [2], y) \cdot d d z [ 2 ] a [2] = d a [2] \cdot g' (z [2]) = (- y a [ 2 ] + 1 - y 1 - a [ 2 ]) \cdot (g (z [2]) (1 - g (z [2]))) = (- y a [ 2 ] + 1 - y 1 - a [ 2 ]) \cdot a [2] \cdot (1 - a [2]) = a [2] - y (1.4)

$\begin{split}{\rm d}z^{[2]}_{[1\times1]} &= \frac{\rm d}{{\rm d}z^{[2]}}{\cal L}(a^{[2]}, y) \\&= \frac{{\rm d}}{{\rm d}a^{[2]}}{\cal L}(a^{[2]}, y) \cdot \frac{{\rm d}}{{\rm d}z^{[2]}}a^{[2]} \\&= {\rm d}a^{[2]} \cdot g'(z^{[2]}) \\&=(-\frac{y}{a^{[2]}} + \frac{1-y}{1-a^{[2]}}) \cdot (g(z^{[2]})(1-g(z^{[2]}))) \\&=(-\frac{y}{a^{[2]}} + \frac{1-y}{1-a^{[2]}}) \cdot a^{[2]} \cdot (1-a^{[2]}) \\& = a^{[2]} - y\end{split}\tag{1.4}$

d W [2] [1 \times 4] = d d W [ 2 ] L (a [2], y) = d d a [ 2 ] L (a [2], y) \cdot d d z [ 2 ] a [2] \cdot d d W [ 2 ] z [2] = d z [2] \cdot x = d z [2] [1 \times 1] (a [1] [4 \times 1]) T (1.5)

$\begin{split}{\rm d}W^{[2]}_{[1\times4]} &= \frac{{\rm d}}{{\rm d}W^{[2]}}{\cal L}(a^{[2]}, y) \\&= \frac{{\rm d}}{{\rm d}a^{[2]}}{\cal L}(a^{[2]}, y) \cdot \frac{{\rm d}}{{\rm d}z^{[2]}}a^{[2]} \cdot \frac{{\rm d}}{{\rm d}W ^ {[2]}}z^{[2]} \\&={\rm d}z^{[2]} \cdot x \\&= {\rm d}z^{[2]}_{[1\times1]}(a^{[1]}_{[4\times1]})^{T}\end{split}\tag{1.5}$

d b [2] [1 \times 1] = d d b [ 2 ] L (a [2], y) = d d a [ 2 ] L (a [2], y) \cdot d d z [ 2 ] a [2] \cdot d d b [ 2 ] z [2] = d z [2] [1 \times 1] (1.6)

$\begin{split}{\rm d}b^{[2]}_{[1\times1]} &= \frac{{\rm d}}{{\rm d}b^{[2]}}{\cal L}(a^{[2]}, y) \\&= \frac{{\rm d}}{{\rm d}a^{[2]}}{\cal L}(a^{[2]}, y) \cdot \frac{{\rm d}}{{\rm d}z^{[2]}}a^{[2]} \cdot \frac{{\rm d}}{{\rm d}b ^ {[2]}}z^{[2]} \\&={\rm d}z^{[2]}_{[1\times1]} \end{split}\tag{1.6}$

d a [1] [4 \times 1] = d d a [ 1 ] L (a [2], y) = d d a [ 2 ] L (a [2], y) \cdot d d z [ 2 ] a [2] \cdot d d a [ 1 ] z [2] = d z [2] \cdot W [2] = (W [2] [1 \times 4]) T d z [2] [1 \times 1] (1.7)

$\begin{split}{\rm d}a^{[1]}_{[4\times1]} &= \frac{{\rm d}}{{\rm d}a^{[1]}}{\cal L}(a^{[2]}, y) \\&= \frac{{\rm d}}{{\rm d}a^{[2]}}{\cal L}(a^{[2]}, y) \cdot \frac{{\rm d}}{{\rm d}z^{[2]}}a^{[2]} \cdot \frac{{\rm d}}{{\rm d}a ^ {[1]}}z^{[2]} \\& ={\rm d}z^{[2]} \cdot W^{[2]}\\&=(W^{[2]}_{[1\times4]})^{T}{\rm d}z^{[2]}_{[1\times1]}\end{split}\tag{1.7}$

g (z [1]) = tanh (z [1]) = a [1] (1.8)

$g(z^{[1]}) = \tanh(z^{[1]}) = a^{[1]}\tag{1.8}$

d z [1] [4 \times 1] = d d z [ 1 ] L (a [2], y) = d d a [ 2 ] L (a [2], y) \cdot d d z [ 2 ] a [2] \cdot d d a [ 1 ] z [2] \cdot d d z [ 1 ] a [1] = d a [1] \cdot g' (z [1]) = (W [2] [1 \times 4]) T d z [2] [1 \times 1] * g' (z [1]) [4 \times 1] (1.9)

$\begin{split}{\rm d}z^{[1]}_{[4\times1]} &=\frac{{\rm d}}{{\rm d}z^{[1]}}{\cal L}(a^{[2]}, y) \\&= \frac{{\rm d}}{{\rm d}a^{[2]}}{\cal L}(a^{[2]}, y) \cdot \frac{{\rm d}}{{\rm d}z^{[2]}}a^{[2]} \cdot \frac{{\rm d}}{{\rm d}a ^ {[1]}}z^{[2]} \cdot \frac{{\rm d}}{{\rm d}z^{[1]}}a^{[1]} \\&={\rm d}a^{[1]} \cdot g'(z^{[1]}) \\&= (W^{[2]}_{[1\times4]})^{T}{\rm d}z^{[2]}_{[1\times1]} * g'(z^{[1]})_{[4\times1]}\end{split}\tag{1.9}$

d W [1] [4 \times 3] = d d W [ 1 ] L (a [2], y) = d d a [ 2 ] L (a [2], y) \cdot d d z [ 2 ] a [2] \cdot d d a [ 1 ] z [2] \cdot d d z [ 1 ] a [1] \cdot d d W [ 1 ] z [1] = d z [1] \cdot x = d z [1] [4 \times 1] (a [0] [3 \times 1]) T (1.10)

$\begin{split}{\rm d}W^{[1]}_{[4\times3]} &= \frac{{\rm d}}{{\rm d}W^{[1]}}{\cal L}(a^{[2]}, y) \\&= \frac{{\rm d}}{{\rm d}a^{[2]}}{\cal L}(a^{[2]}, y) \cdot \frac{{\rm d}}{{\rm d}z^{[2]}}a^{[2]} \cdot \frac{{\rm d}}{{\rm d}a ^ {[1]}}z^{[2]} \cdot \frac{{\rm d}}{{\rm d}z^{[1]}}a^{[1]} \cdot \frac{{\rm d}}{{\rm d}W^{[1]}}z^{[1]} \\& = {\rm d}z^{[1]} \cdot x \\& = {\rm d}z^{[1]}_{[4\times1]}(a^{[0]}_{[3\times1]})^T \end{split}\tag{1.10}$

d b [1] [4 \times 1] = d d W [ 1 ] L (a [2], y) = d d a [ 2 ] L (a [2], y) \cdot d d z [ 2 ] a [2] \cdot d d a [ 1 ] z [2] \cdot d d z [ 1 ] a [1] \cdot d d b [ 1 ] z [1] = d z [1] [4 \times 1] (1.11)

$\begin{split}{\rm d}b^{[1]}_{[4\times1]} &= \frac{{\rm d}}{{\rm d}W^{[1]}}{\cal L}(a^{[2]}, y) \\&= \frac{{\rm d}}{{\rm d}a^{[2]}}{\cal L}(a^{[2]}, y) \cdot \frac{{\rm d}}{{\rm d}z^{[2]}}a^{[2]} \cdot \frac{{\rm d}}{{\rm d}a ^ {[1]}}z^{[2]} \cdot \frac{{\rm d}}{{\rm d}z^{[1]}}a^{[1]} \cdot \frac{{\rm d}}{{\rm d}b^{[1]}}z^{[1]} \\& = {\rm d}z^{[1]}_{[4\times1]} \end{split}\tag{1.11}$

下面是vectorization后的反向传播算法公式：

L (A [2], Y) = 1 m \sum i = 1 m - y (i) log A [2] (i) - (1 - y (i)) log (1 - A [2] (i)) (2.1)

${\cal L}(A^{[2]}, Y) =\frac{1}{m}\sum_{i = 1}^m -y^{(i)}\log A^{[2](i)}-(1-y^{(i)})\log (1-A^{[2](i)})\tag{2.1}$

d A [2] [1 \times m] = [(- Y ( 1 ) A [ 2 ] ( 1 ) + 1 - Y ( 1 ) 1 - A [ 2 ] ( 1 )), \dots, (- Y ( m ) A [ 2 ] ( m ) + 1 - Y ( m ) 1 - A [ 2 ] ( m ))] (2.2)

$\begin{split}{\rm d}A^{[2]}_{[1\times m]} &=[(-\frac{Y^{(1)}}{A^{[2](1)}} + \frac{1-Y^{(1)}}{1-A^{[2](1)}}), \cdots ,(-\frac{Y^{(m)}}{A^{[2](m)}} + \frac{1-Y^{(m)}}{1-A^{[2](m)}})]\end{split}\tag{2.2}$

d Z [2] [1 \times m] = [(- Y ( 1 ) A [ 2 ] ( 1 ) + 1 - Y ( 1 ) 1 - A [ 2 ] ( 1 )), \dots, (- Y ( m ) A [ 2 ] ( m ) + 1 - Y ( m ) 1 - A [ 2 ] ( m ))] * [A [2] (1) (1 - A [2] (1)), \dots, A [2] (m) (1 - A [2] (m))] = [(A [2] (1) - Y (1)), \dots, (A [2] (m) - Y (m))] = A [2] - Y (2.3)

$\begin{split}{\rm d}Z^{[2]}_{[1\times m]} &=[(-\frac{Y^{(1)}}{A^{[2](1)}} + \frac{1-Y^{(1)}}{1-A^{[2](1)}}), \cdots ,(-\frac{Y^{(m)}}{A^{[2](m)}} + \frac{1-Y^{(m)}}{1-A^{[2](m)}})] * [A^{[2](1)}(1-A^{[2](1)}), \cdots,A^{[2](m)}(1-A^{[2](m)})] \\&=[(A^{[2](1)}-Y^{(1)}), \cdots,(A^{[2](m)}-Y^{(m)})] \\&=A^{[2]}-Y \end{split}\tag{2.3}$