TensorFlow可微分编程实践3---计算图模型

最新推荐文章于 2025-06-30 09:07:54 发布

最老程序员闫涛

最新推荐文章于 2025-06-30 09:07:54 发布

阅读量932

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能深度学习文章标签： TensorFlow MLP Computation Graph

本文链接：https://blog.youkuaiyun.com/Yt7589/article/details/80747830

人工智能同时被 2 个专栏收录

45 篇文章

订阅专栏

深度学习

41 篇文章

订阅专栏

本文通过构建计算图的方式，详细介绍了如何使用自动微分技术实现一个多层感知器（MLP）模型，并应用于MNIST手写数字识别任务。

在这篇博文中，我们将探讨怎样通过可微分编程技术，实现深度学习中最常用的多层感知器（MLP）模型。我们在这里使用TensorFlow Eager Execution API，并使用多层感知器模型来进行MNIST手写数字识别任务。如果我们单纯想尝试一下自动微分和可微分编程，以及如何用TensorFlow来调用这些技术，我们可以使用TensorFlow内置类来做这个工作，但是这样大家就无从了解实现的细节了，对于深刻掌握可微分编程来说是不利的。因此我们在这篇博文，会尝试从头开始，利用自动微分技术，实现一个简单的多层感知器模型。
我们可以构造一个最简的多层感知器（MLP）模型，来做MNIST手写数字识别工作，如下所示：
这里写图片描述
因为MNIST图片为 $28 \times 28$ 的黑白图片，所以输入向量为 $\boldsymbol{x} \ in R^{784}$ ，这里的 $n=784$ ，即共有784维。对第i个样本，我们用 $\boldsymbol{x}^{(i)}$ 来表示，在本例中，为了讨论问题方便，我们省略的上标仅用 $\boldsymbol{x}$ 表示，但是大家要注意这代表的是某一个样本。对于图中的每个像素点，我们将28行串接起来，组成一个784个的长数列，用下标表示某个像素点的取值，例如第2行第5列的下标为 $28 \times 2 + 5=61$ ，可以用 $\boldsymbol{x}_{61}$ 来表示。
输入层与第1层采用全连接方式，第1层第i个节点的输入值我们用 $\boldsymbol{z}^1_i$ ，其为输入层所有神经元的输出值，与该神经元与第1层第i个神经元连接权值相乘再相加的结果，我们假设输入层第j个神经元指向第1层第i个神经元的连接权值用 $W^1_{i,j}$ 表示，上标代表为第1层，下标第一个代表是第1层第i个神经元，第二个代表是输入层第j个神经元，我们可以得出第1层第i个神经元的输入值公式：

z 1 i = W 1 i, 1 x 1 + W 1 i, 2 x 2 + . . . + W 1 i, j x j + . . . + W 1 i, 784 x 784 + b 1 i (1)

$\begin{equation} \boldsymbol{z}^1_i=W^1_{i,1}\boldsymbol{x}_1+W^1_{i,2}\boldsymbol{x}_2+...+W^1_{i,j}\boldsymbol{x}_j+...+W^1_{i,784}\boldsymbol{x}_{784}+b^1_i \end{equation}$
或者简写为：

z 1 i = \sum j = 1 784 W 1 i, j x j + b 1 i (2)

$\begin{equation} \boldsymbol{z}^1_i=\sum_{j=1}^{784}W^1_{i,j}\boldsymbol{x}_j+b^1_i \end{equation}$
我们通常将所有第1层神经元的输入值串起来形成一个向量，如下所示：

z 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ z 11 z 12 . . . z 1512 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\boldsymbol{z}^1=\begin{bmatrix} \boldsymbol{z}^1_1 \\ \boldsymbol{z}^1_2 \\ ... \\ \boldsymbol{z}^1_{512} \end{bmatrix}$
我们将第1层神经元的偏置值

b1ibi1 $b^1_i$ 与串在一起形成一个向量，如下所示：

b 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ b 11 b 12 . . . b 1512 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

$\boldsymbol{b}^1=\begin{bmatrix} \boldsymbol{b}^1_1 \\ \boldsymbol{b}^1_2 \\ ... \\ \boldsymbol{b}^1_{512} \end{bmatrix}$
我们将输入层与第1层的连接权值表示为矩阵形式，如下所示：

W 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ W 1 1, 1 W 1 2, 1 . . . W 1 512, 1 W 1 1, 2 W 1 2, 2 . . . W 1 512, 2 . . . . . . . . . . . . W 1 1, 784 W 1 2, 784 . . . W 1 512, 784 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$W^1=\begin{bmatrix} W^1_{1,1} & W^1_{1, 2} & ... & W^1_{1,784} \\ W^1_{2,1} & W^1_{2, 2} & ... & W^1_{2,784} \\ ... & ... & ... & ... \\ W^1_{512,1} & W^1_{512, 2} & ... & W^1_{512,784} \end{bmatrix}$
输入信号也表示为向量形式：

x = ⎡ ⎣ ⎢ ⎢ ⎢ x 1 x 2 . . . x 584 ⎤ ⎦ ⎥ ⎥ ⎥ (3)

$\begin{equation} \boldsymbol{x}=\begin{bmatrix} \boldsymbol{x}_1 \\ \boldsymbol{x}_2 \\ ... \\ \boldsymbol{x}_{584} \end{bmatrix} \end{equation}$
则第1层神经元的输入信号可以表示矩阵向量的运算，如下所示：

z 1 = W 1 \cdot x + b 1 (e000001)

$\begin{equation} \tag{e000001} \boldsymbol{z}^1=W^1 \cdot \boldsymbol{x}+\boldsymbol{b}^1 \end{equation}$
我们假设第1层第i个神经元的激活函数为ReLU函数，则其输出为：

a 1 i = R e L U (z 1 i) (4)

$\begin{equation} \boldsymbol{a}^1_i=ReLU(\boldsymbol{z}^1_i) \end{equation}$
我们同样将第1层所有神经元的输出串在一起形成一个向量，如下所示：

a 1 = R e L U (z 1) (5)

$\begin{equation} \boldsymbol{a}^1=ReLU(\boldsymbol{z}^1) \end{equation}$
将式（

e000001e000001 $e000001$ ）代入得到：

a 1 = R e L U (z 1) = R e L U (W 1 \cdot x + b 1) (e000002)

$\begin{equation} \tag{e000002} \boldsymbol{a}^1=ReLU(\boldsymbol{z}^1)=ReLU(W^1 \cdot \boldsymbol{x}+\boldsymbol{b}^1) \end{equation}$
以上我们讨论的是输入导到第1层，我们可以很容易的将其推广为从第

l−1l−1 $l-1$ 到第

ll $l$ 层：

\begin{matrix} (e000003) & a^{l} = R e L U (z^{l}) = R e L U (W^{l} \cdot a^{l - 1} + b^{l}) \end{matrix}

$\begin{equation} \tag{e000003} \boldsymbol{a}^l=ReLU(\boldsymbol{z}^l)=ReLU(W^l \cdot \boldsymbol{a}^{l-1}+\boldsymbol{b}^l) \end{equation}$
我们用

Nl−1Nl−1 $N_{l-1}$ 代表第

l−1l−1 $l-1$ 层神经元数量，用

NlNl $N_{l}$ 表示第

ll $l$ 层神经元数量，则第

l - 1

$l-1$ 层输出信号

al−1∈RNl−1al−1∈RNl−1 $\boldsymbol{a}^{l-1} \in R^{N_{l-1}}$ ，第

l−1l−1 $l-1$ 层到第

ll $l$ 层连接权值矩阵

W^{l} \in R^{N_{l} \times N_{l - 1}}

$W^l \in R^{N_l \times N_{l-1}}$ ，第

ll $l$ 层偏置值

b^{l} \in R^{N_{l}}

$\boldsymbol{b}^l \in R^{N_l}$ ，第

ll $l$ 层输入信息

z^{l} \in R^{N_{l}}

$\boldsymbol{z}^l \in R^{N_l}$ ，第

ll $l$ 层的输出值

a^{l} \in R^{N_{l}}

$\boldsymbol{a}^l \in R^{N_l}$ 。
前向传播各层计算公式一样，直到我们的输出层（这里是第2层），我们有10个神经元，分别代表取0~9这10个数字的概率，激活函数采用Softmax函数，取概率最大的那个作为整个网络的分类结果。
神经网络的训练可以采用BP算法，这里有很多成熟的算法库可用。但是我们在这里要采用计算的方式来讲解，同时我们在讲解了计算图的基本原理之后，我们会用TensorFlow Eager Execution API，采用可微分编程方式，实现这一经典算法。
采用计算图方式的话，我们需要引入一种网络的另一种表示方式，如图所示：
这里写图片描述

我们将输入信号向量

xx $\boldsymbol{x}$ 、输入层到第1层的连接权值矩阵

W1W1 $W^1$ 、第1层神经元偏置值向量

b1b1 $\boldsymbol{b}^1$ 放在图的最左侧，将这三个值进行如下运算：

z 1 = W 1 x + b 1 (6)

$\begin{equation} \boldsymbol{z}^1=W^1\boldsymbol{x}+\boldsymbol{b}^1 \end{equation}$
经过计算得到节点

z1z1 $\boldsymbol{z}^1$ ，我们再经过激活函数得到第1层神经元输出信号

a1=ReLU(z1)a1=ReLU(z1) $\boldsymbol{a}^1=ReLU(\boldsymbol{z}^1)$ ，得到

a1a1 $\boldsymbol{a}^1$ 节点。
我们将第1层输出信号

a1a1 $\boldsymbol{a}^1$ 、第1层到第2层连接权值矩阵

W2W2 $W^2$ 、第2层神经元偏置值向量

b2b2 $\boldsymbol{b}^2$ 放在一起，经过如下运算：

z 2 = W 2 a 1 + b 2 (7)

$\begin{equation} \boldsymbol{z}^2=W^2\boldsymbol{a}^1+\boldsymbol{b}^2 \end{equation}$
第2层也就是输出层的激活函数为Softmax函数：

y i = a 2 i = e z 2 i \sum N 2 j = 1 e z 2 j (8)

$\begin{equation} \boldsymbol{y}_i=\boldsymbol{a}^2_i=\frac{e^{\boldsymbol{z}^2_i}}{\sum_{j=1}^{N_2}e^{\boldsymbol{z}^2_j}} \end{equation}$
其向量形式表示为：

y i = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ e z 2 1 \sum N 2 j = 1 e z 2 j e z 2 2 \sum N 2 j = 1 e z 2 j . . . e z 2 N 2 \sum N 2 j = 1 e z 2 j ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (9)

$\begin{equation} \boldsymbol{y}_i=\begin{bmatrix} \frac{e^{\boldsymbol{z}^2_1}}{\sum_{j=1}^{N_2}e^{\boldsymbol{z}^2_j}} \\ \frac{e^{\boldsymbol{z}^2_2}}{\sum_{j=1}^{N_2}e^{\boldsymbol{z}^2_j}} \\ ... \\ \frac{e^{\boldsymbol{z}^2_{N_2}}}{\sum_{j=1}^{N_2}e^{\boldsymbol{z}^2_j}} \end{bmatrix} \end{equation}$
而我们的希望的结果表示为：

y^i = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 0010 . . . 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (10)

$\begin{equation} \boldsymbol{\hat{y}}_i=\begin{bmatrix} 0 \\ 0 \\ 1 \\ 0 \\ ... \\ 0 \end{bmatrix} \end{equation}$
如上所示，其用one-hot向量形式表示，即只有正确的数字处为1，其余位置为0，例如本例中，就代表其识别结果应该为2。

向量运算的微分
我们先来定义向量微分，假设有向量 $\boldsymbol{y} \in R^m$ 和向量 $\boldsymbol{x} \in R^n$ ，微分 $\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{x}}}$ 定义为：

$\partial y \partial x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial x 1 \partial y 2 \partial x 1 . . . \partial y m \partial x 1 \partial y 1 \partial x 2 \partial y 2 \partial x 2 . . . \partial y m \partial x 2 . . . . . . . . . . . . \partial y 1 \partial x n \partial y 2 \partial x n . . . \partial y m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (11)$ $\begin{equation} \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{x}}}=\begin{bmatrix} \frac{\partial{y}_1}{\partial{x}_1} & \frac{\partial{y}_1}{\partial{x}_2} & ... & \frac{\partial{y}_1}{\partial{x}_n} \\ \frac{\partial{y}_2}{\partial{x}_1} & \frac{\partial{y}_2}{\partial{x}_2} & ... & \frac{\partial{y}_2}{\partial{x}_n} \\ ... & ... & ... & ... \\ \frac{\partial{y}_m}{\partial{x}_1} & \frac{\partial{y}_m}{\partial{x}_2} & ... & \frac{\partial{y}_m}{\partial{x}_n} \end{bmatrix} \end{equation}$
这就是Jacobian矩阵 $\boldsymbol{j} \in R^{m \times n}$ 。
代价函数求导
我们首先从计算图最右侧开始反向求导，如图所示：

我们首先处理损失函数，这里我们假设不考虑添加调整项的情况，我们的代价函数取交叉熵（cross entropy）函数，根据交叉熵定义：

$H (p, q) = E p (- log q) = H (p) + K L (p ∥ q) (12)$ $\begin{equation} H(p, q)=E_p(-\log{q})=H(p)+KL(p \Vert q) \end{equation}$
对离散值情况，交叉熵（cross entropy）可以表示为：
$H (p, q) = - \sum k = 1 K p (k) log q (k) (13)$ $\begin{equation} H(p, q)=-\sum_{k=1}^{K}p(k)\log{q(k)} \end{equation}$
在这里我们设正确值 $\hat{\boldsymbol{y}}$ 的分布为p，而计算值 $\boldsymbol{y}=\boldsymbol{a}^2$ 的分布为q，假设共有 $K=10$ 个类别，并且假设第 $r$ 维为正确数字，则代价函数的值为：
$\begin{matrix} (14) & C = H (p, q) = - \sum_{k = 1}^{K} p (k) \log q (k) = - (0 * \log y_{1} + 0 * \log y_{2} + . . . + 1 * \log y_{r} + . . . + 0 * \log y_{10}) = - \log y_{r} \end{matrix}$ $\begin{equation} C=H(p, q)=-\sum_{k=1}^{K}p(k)\log{q(k)}=-(0*\log{y_1}+0*\log{y_2}+...+1*\log{y_r}+...+0*\log{y_{10}}) \\ =-\log{y_r} \end{equation}$
我们可以将代价函数值视为 $R^{1}$ 的向量，我们对 $\boldsymbol{y}$ 求偏导，根据Jacobian矩阵定义，结果为 $R^{1 \times N_2}=R^{1 \times 10}$ 的1行10列的矩阵。结果如下所示：
$\partial C \partial y = [00 . . . - 1 y r . . . 0] (15)$ $\begin{equation} \frac{\partial{C}}{\partial{y}}=\begin{bmatrix} 0 & 0 & ... & -\frac{1}{y_r} & ... & 0 \end{bmatrix} \end{equation}$
其只有正确数字对应的第r维不为0，其余均为零。
接下来我们来求： $\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}$ ，因为 $\boldsymbol{y}$ 和$\boldsymbol{a}^2均为向量，可以直接使用Jacobian矩阵定义得：

\partial y \partial z 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial y 1 \partial z 2 1 \partial y 2 \partial z 2 1 . . . \partial y N 2 \partial z 2 1 \partial y 1 \partial z 2 2 \partial y 2 \partial z 2 2 . . . \partial y N 2 \partial z 2 2 . . . . . . . . . . . . \partial y 1 \partial z 2 N 2 \partial y 2 \partial z 2 N 2 . . . \partial y N 2 \partial z 2 N 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (16)

$\begin{equation} \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}=\begin{bmatrix} \frac{\partial{y_1}}{\partial{z^2_1}} & \frac{\partial{y_1}}{\partial{z^2_2}} & ... & \frac{\partial{y_1}}{\partial{z^2_{N_2}}} \\ \frac{\partial{y_2}}{\partial{z^2_1}} & \frac{\partial{y_2}}{\partial{z^2_2}} & ... & \frac{\partial{y_2}}{\partial{z^2_{N_2}}} \\ ... & ... &... &... \\ \frac{\partial{y_{N_2}}}{\partial{z^2_1}} & \frac{\partial{y_{N_2}}}{\partial{z^2_2}} & ... & \frac{\partial{y_{N_2}}}{\partial{z^2_{N_2}}} \\ \end{bmatrix} \end{equation}$
式中

N2=10N2=10 $N_2=10$ 为第2层即输出层神经元个数。由此可见

∂y∂z2∈RN2×N2(R10×10)∂y∂z2∈RN2×N2(R10×10) $\frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}} \in R^{N_2 \times N_2}(R^{10 \times 10})$ 的方阵。
如果我们输出层采用

σσ $\sigma$ 函数，那么第i个神经元的输出只与其输入有关，与其他神经元无关，因此该矩阵就变为一个对角阵，如下所示：

\partial y \partial z 2 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ σ' (z 21) 0 . . . 0 0 σ' (z 22) . . . 0 . . . . . . . . . . . . 00 . . . σ' (z 210) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ (17)

$\begin{equation} \frac{\partial{\boldsymbol{y}}}{\partial{\boldsymbol{z}^2}}=\begin{bmatrix} \sigma'(z^2_1) & 0 & ... & 0 \\ 0 & \sigma'(z^2_2) & ... & 0 \\ ... & ... &... &... \\ 0 & 0 & ... & \sigma'(z^2_{10}) \end{bmatrix} \end{equation}$
但是我们在这里使用的是Softmax激活函数，每个输出与该层所有神经元的输入均有关，所以其不是对角阵。
接下来我们计算

∂z2∂a1∂z2∂a1 $\frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{a}^1}}$ ，根据Jacobian矩阵定义得：

\partial z 2 \partial a 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial z 2 1 \partial a 1 1 \partial z 2 2 \partial a 1 1 . . . \partial z 2 N 2 \partial a 1 1 \partial z 2 1 \partial a 1 2 \partial z 2 2 \partial a 1 2 . . . \partial z 2 N 2 \partial a 1 2 . . . . . . . . . . . . \partial z 2 1 \partial a 1 N 1 \partial z 2 2 \partial a 1 N 1 . . . \partial z 2 N 2 \partial a 1 N 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (e000004)

$\begin{equation} \tag{e000004} \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{a}^1}}=\begin{bmatrix} \frac{\partial{z^2_1}}{\partial{a^1_1}} & \frac{\partial{z^2_1}}{\partial{a^1_2}} & ... & \frac{\partial{z^2_1}}{\partial{a^1_{N_1}}} \\ \frac{\partial{z^2_2}}{\partial{a^1_1}} & \frac{\partial{z^2_2}}{\partial{a^1_2}} & ... & \frac{\partial{z^2_2}}{\partial{a^1_{N_1}}} \\ ... & ... &... &... \\ \frac{\partial{z^2_{N_2}}}{\partial{a^1_1}} & \frac{\partial{z^2_{N_2}}}{\partial{a^1_2}} & ... & \frac{\partial{z^2_{N_2}}}{\partial{a^1_{N_1}}} \\ \end{bmatrix} \end{equation}$
我们知道：

z 2 i = W 2 i, 1 a 11 + W 2 i, 2 a 12 + . . . + W 2 i, j a 1 j + . . . + W 2 i, N 1 a 1 N 1

$z^2_i=W^2_{i,1}a^1_1+W^2_{i,2}a^1_2+...+W^2_{i,j}a^1_j+...+W^2_{i,N_1}a^1_{N_1}$
则其对第1层第j个神经元输出信号求导：

\partial z 2 i \partial a 1 j = W 2 i, j

$\frac{\partial{z^2_i}}{\partial{a^1_j}}=W^2_{i,j}$
所以式（e000004）的最终结果为：

\partial z 2 \partial a 1 = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial z 2 1 \partial a 1 1 \partial z 2 2 \partial a 1 1 . . . \partial z 2 N 2 \partial a 1 1 \partial z 2 1 \partial a 1 2 \partial z 2 2 \partial a 1 2 . . . \partial z 2 N 2 \partial a 1 2 . . . . . . . . . . . . \partial z 2 1 \partial a 1 N 1 \partial z 2 2 \partial a 1 N 1 . . . \partial z 2 N 2 \partial a 1 N 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ W 2 1, 1 W 2 2, 1 . . . W 2 N 2, 1 W 2 1, 2 W 2 2, 2 . . . W 2 N 2, 2 . . . . . . . . . . . . W 2 1, N 1 W 2 2, N 1 . . . W 2 N 2, N 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = W 2 (e000004)

z2=W2a1+b2z2=W2a1+b2 $\boldsymbol{z}^2=W^2\boldsymbol{a}^1+\boldsymbol{b}^2$ 对

a1a1 $\boldsymbol{a}^1$ 求导得

W2W2 $W^2$ 一致。
接下来我们要求的

∂z2∂W2∂z2∂W2 $\frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}}$ ，这里是向量对矩阵求偏导，结果将是一个张量（Tensor）。
我们可以将连接权值矩阵

W2W2 $W^2$ 视为由列向量组成：

W 2 = [w 1 w 2 . . . w N 1] (18)

$\begin{equation} W^2=\begin{bmatrix} \boldsymbol{w}^{1} & \boldsymbol{w}^{2} & ... & \boldsymbol{w}^{N_1} \end{bmatrix} \end{equation}$
其中第

kk $k$ 个列向量

w^{k}

$\boldsymbol{w}^{k}$ 为：

w k = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ W 2 1, k W 2 2, k . . . W 2 N 2, k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (19)

$\begin{equation} \boldsymbol{w}^{k}=\begin{bmatrix} W^2_{1,k} \\ W^2_{2,k} \\ ... \\ W^2_{N_2,k} \end{bmatrix} \end{equation}$
这时

∂z2∂W2∂z2∂W2 $\frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}}$ 就可以转化为对一系列连接权值矩阵组成的列向量求导，就变为列向量求导，如下所示：

\partial z 2 \partial W 2 = [\partial z 2 \partial w 1 \partial z 2 \partial w 2 . . . \partial z 2 \partial w N 1] (20)

$\begin{equation} \frac{\partial{\boldsymbol{z}^2}}{\partial{W^2}}=\begin{bmatrix} \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{1}}} & \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{2}}} & ... & \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{N_1}}} \end{bmatrix} \end{equation}$
式中的每一项均为向量对向量的导数，其为Jacobian矩阵，因为

z2∈RN2z2∈RN2 $\boldsymbol{z}^2 \in R^{N_2}$ ，且

wk∈RN2wk∈RN2 $\boldsymbol{w}^{k} \in R^{N_2}$ ，根据Jacobian矩阵定义，

∂z2∂wk∈RN2×N2∂z2∂wk∈RN2×N2 $\frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{k}}} \in R^{N_2 \times N_2}$ 的矩阵，如下所示：

\partial z 2 \partial w k = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial z 2 1 \partial w k 1 \partial z 2 2 \partial w k 1 . . . \partial z 2 N 2 \partial w k 1 \partial z 2 1 \partial w k 2 \partial z 2 2 \partial w k 2 . . . \partial z 2 N 2 \partial w k 2 . . . . . . . . . . . . \partial z 2 1 \partial w k k \partial z 2 2 \partial w k k . . . \partial z 2 N 2 \partial w k k . . . . . . . . . . . . \partial z 2 1 \partial w k N 2 \partial z 2 2 \partial w k N 2 . . . \partial z 2 N 2 \partial w k N 2 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (21)

$\begin{equation} \frac{\partial{\boldsymbol{z}^2}}{\partial{\boldsymbol{w}^{k}}}=\begin{bmatrix} \frac{\partial{z^2_1}}{\partial{w^k_1}} & \frac{\partial{z^2_1}}{\partial{w^k_2}} & ... & \frac{\partial{z^2_1}}{\partial{w^k_k}} & ... & \frac{\partial{z^2_1}}{\partial{w^k_{N_2}}} \\ \frac{\partial{z^2_2}}{\partial{w^k_1}} & \frac{\partial{z^2_2}}{\partial{w^k_2}} & ... & \frac{\partial{z^2_2}}{\partial{w^k_k}} & ... & \frac{\partial{z^2_2}}{\partial{w^k_{N_2}}} \\ ... & ... & ... & ... & ... & ... \\ \frac{\partial{z^2_{N_2}}}{\partial{w^k_1}} & \frac{\partial{z^2_{N_2}}}{\partial{w^k_2}} & ... & \frac{\partial{z^2_{N_2}}}{\partial{w^k_k}} & ... & \frac{\partial{z^2_{N_2}}}{\partial{w^k_{N_2}}} \\ \end{bmatrix} \end{equation}$
由此可知其为

RN2×N2RN2×N2 $R^{N_2 \times N_2}$ 的方阵，对其中第

ii $i$ 行第

j

$j$ 列元素：

\partial z 2 i \partial w k j = \partial z 2 i \partial W 2 j , k (e000005)

$\begin{equation} \tag{e000005} \frac{\partial{z^2_i}}{\partial{w^k_j}}=\frac{\partial{z^2_i}}{\partial{W^2_{j,k}}} \end{equation}$
在式(e000005)中，如果

i≠ji≠j $i \neq{j}$ ，此时连接权值不指向第

ii $i$ 个神经元，因此值为0。当

i = j

$i=j$ 时，

W2i,kWi,k2 $W^2_{i,k}$ 是与第1层的第

kk $k$ 个神经元的输出

a_{k}^{1}

$a^1_k$ 相乘，因此其导数为

a1kak1 $a^1_k$ ，当

i=ji=j $i=j$ 时对应的是式(e000005)的对角线，因此其为对角阵，而且其值均为

a1kak1 $a^1_k$ ，如下所示：

⎡ ⎣ ⎢ ⎢ ⎢ ⎢ a 1 k 0 . . . 0 0 a 1 k . . . 0 . . . . . . . . . . . . 00 . . . a 1 k ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ (22)

$\begin{equation} \begin{bmatrix} a^1_k & 0 & ... & 0 \\ 0 & a^1_k & ... & 0 \\ ... & ... & ... & ... \\ 0 & 0 & ... & a^1_k \end{bmatrix} \end{equation}$
余下部分的偏导求法和上面的方法相同，我们在这里就不再一一列举了。读者可以自行补齐。
到此我们基本把多层感知器模型的计算图讲完了，下一步就是利用TensorFlow Eager Execution API来实现这个模型，我们将在下一篇博文中进行介绍。