矩阵求导术-优快云博客

矩阵求导的技术，在统计学、控制论、机器学习等领域有广泛的应用。本文来做个科普，分作两篇，上篇讲标量对矩阵的求导术，下篇讲矩阵对矩阵的求导术。本文使用小写字母 $x$ 表示标量，粗体小写字母 $x\boldsymbol{x}$ 表示（列）向量，大写字母 $X$ 表示矩阵。

首先来琢磨一下定义，标量 $f$ 对矩阵 $X$ 的导数，定义为 $∂f∂X=[∂f∂Xij]\frac{\partial f}{\partial X}=\left [ \frac{\partial f}{\partial X_{ij}} \right ]$ ，即 $f$ 对 $X$ 逐元素求导排成与 $X$ 尺寸相同的矩阵。然而，这个定义在计算中并不好用，实用上的原因是对函数较复杂的情形难以逐元素求导；哲理上的原因是逐元素求导破坏了整体性。试想，为何要将 $f$ 看做矩阵 $X$ 而不是各元素 $X_{ij}$ 的函数呢？答案是用矩阵运算更整洁。所以在求导时不宜拆开矩阵，而是要找一个从整体出发的算法。

为此，我们来回顾，一元微积分中的导数（标量对标量的导数）与微分有联系： $d f = f^{'} (x) d x$ ；多元微积分中的梯度（标量对向量的导数）也与微分有联系： $f=\sum_{i=1}^n \frac{\partial f}{\partial x_i}dx_i=\frac{\partial f^T}{\partial \boldsymbol x}d\boldsymbol x$ ，这里第一个等号是全微分公式，第二个等号表达了梯度与微分的联系：全微分 $d f$ 是梯度向量 $∂f∂x(n×1)\frac{\partial f}{\partial \boldsymbol x}(n\times 1)$ 与微分向量 $\boldsymbol x(x \times 1)$ 的内积；受此启发，我们将矩阵导数与微分建立联系： $df=∑i=1m∑j=1n∂f∂XijdXij=tr(∂fT∂XdX)df=\sum_{i=1}^m\sum_{j=1}^n\frac{\partial f}{\partial X_{ij}} dX_{ij}=tr\left ( \frac{\partial f^T}{\partial X} dX \right )$ 。其中tr代表迹(trace)是方阵对角线元素之和，满足性质：对尺寸相同的矩阵A,B， $tr(ATB)=∑i,jAijBijtr\left ( A^TB \right )=\sum_{i,j}A_{ij}B_{ij}$ ，即 $tr(ATB)tr\left ( A^TB \right )$ 是矩阵A,B的内积。与梯度相似，这里第一个等号是全微分公式，第二个等号表达了矩阵导数与微分的联系：全微分 $d f$ 是导数 $∂f∂X(m×n)\frac{\partial f}{\partial X}(m\times n)$ 与微分矩阵 $dX(m×n)dX(m\times n)$ 的内积。

然后来建立运算法则。回想遇到较复杂的一元函数如 $\ x)e^{\sqrt{x}}$ ，我们是如何求导的呢？通常不是从定义开始求极限，而是先建立了初等函数求导和四则运算、复合等法则，再来运用这些法则。故而，我们来创立常用的矩阵微分的运算法则：
1.
加减法： $d(X±Y)=dX±dYd(X\pm Y)=dX\pm dY$
矩阵乘法： $d (X Y) = (d X) Y + X (d Y)$
转置： $d(X^T)=(dX)^T$
迹： $d t r (X) = t r (d X)$
2.
逆： $dX^{-1}=-X^{-1}dXX^{-1}$ 。此式可在 $XX^{-1}=I$ 两侧求微分来证明。
3.
行列式： $d∣X∣=tr(X#dX)d\left | X \right |=tr(X^{\#}dX)$ ，其中 $X^{\#}$ 表示 $X$ 的伴随矩阵，在 $X$ 可逆时又可以写作 $d∣X∣=∣X∣tr(X−1dX)d\left | X \right |=\left | X \right |tr\left ( X^{-1}dX \right )$ 。此式可用Laplace展开来证明，详见张贤达《矩阵分析与应用》第279页。
4.
逐元素乘法： $d(X⊙Y)=dX⊙Y+X⊙dYd(X\odot Y)=dX \odot Y + X \odot dY$ ， $⊙\odot$ 表示尺寸相同的矩阵X,Y逐元素相乘。
5.
逐元素函数： $\sigma (X)= \sigma'(X) \odot dX,\ \sigma (X)=\left [ \sigma (X_{ij}) \right ]$ ，是逐元素标量函数运算， $σ′(X)=[σ′(Xij)]{\sigma }'(X)=\left [ {\sigma }'(X_{ij}) \right ]$ 是逐元素求导数。举个例子:
$x22dx22]=cos(X)⊙dXX=\begin{bmatrix} x_{11} & x_{12}\\ x_{21} & x_{22} \end{bmatrix},\ d\sin(X)=\begin{bmatrix} cos \ x_{11}dx_{11} &cos \ x_{12}dx_{12} \\ cos \ x_{21}dx_{21} &cos \ x_{22}dx_{22} \end{bmatrix}=cos(X) \odot dX$
我们试图利用矩阵导数与微分的联系 $tr\left ( \frac{\partial f^T}{\partial X} dX\right )$ ，在求出左侧的微分 $d f$ 后，该如何写成右侧的形式并得到导数呢？这需要一些迹技巧(trace trick)：
1.标量套上迹： $a = t r (a)$
2.转置： $tr(A^T)=tr(A)$
3.线性： $tr(A±B)=tr(A)±tr(B)tr(A\pm B)=tr(A)\pm tr(B)$
4.矩阵乘法交换： $t r (A B) = t r (B A)$ ，其中 $A$ 与 $B^T$ 尺寸相同。两侧都等于 $∑ijAijBji\sum_{ij}A_{ij}B_{ji}$ 。
5.矩阵乘法/逐元素乘法交换： $tr(AT(B⊙C))=tr((A⊙B)TC)tr(A^T(B \odot C))=tr((A \odot B)^TC)$ 其中尺寸相同。两侧都等于 $∑i,jAijBijCij\sum_{i,j}A_{ij}B_{ij}C_{ij}$

观察一下可以断言，若标量函数 $f$ 是矩阵 $X$ 经加减乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对 $f$ 求微分，再使用迹技巧给 $d f$ 套上迹并将其它项交换至 $d X$ 左侧，即能得到导数。

在建立法则的最后，来谈一谈复合：假设已求得 $∂f∂Y\frac{\partial f}{\partial Y}$ ，而Y是X的函数，如何求 $∂f∂X\frac{\partial f}{\partial X}$ 呢？在微积分中有标量求导的链式法则 $∂f∂x=∂f∂y∂y∂x\frac{\partial f}{\partial x}=\frac{\partial f}{\partial y}\frac{\partial y}{\partial x}$ ，但这里我们不能沿用链式法则，因为矩阵对矩阵的导数 $∂Y∂X\frac{\partial Y}{\partial X}$ 截至目前仍是未定义的。于是我们继续追本溯源，链式法则是从何而来？源头仍然是微分。我们直接从微分入手建立复合法则：先写出 $df=tr(∂fT∂YdY)df=tr(\frac{\partial f^T}{\partial Y}dY)$ 再将 $d Y$ 用 $d X$ 表示出来代入，并使用迹技巧将其他项交换至 $d X$ 左侧，即可得到 $∂f∂X\frac{\partial f}{\partial X}$ 。

接下来演示一些算例。特别提醒要依据已经建立的运算法则来计算，不能随意套用微积分中标量导数的结论，比如认为 $A X$ 对 $X$ 的导数为 $A$ ，这是没有根据、意义不明的。

例1： $f=aTXbf=\boldsymbol a^TX \boldsymbol b$ ，求 $∂f∂X\frac{\partial f}{\partial X}$ 。其中 $a\boldsymbol a$ 是 $\times 1$ 列向量， $X$ 是 $\times n$ 矩阵， $b\boldsymbol b$ 是 $\times 1$ 列向量, $f$ 是标量。

解：先使用矩阵乘法法则求微分，这里的 $a,b\boldsymbol a,\boldsymbol b$ 是常量， $da=0,db=0d\boldsymbol a=0,d\boldsymbol b=0$ ，得到： $df=aTdXbdf=\boldsymbol a^TdX \boldsymbol b$ ，再套上迹并做矩阵乘法交换： $df=tr(aTdXb)=tr(baTdX)df=tr(\boldsymbol a^TdX\boldsymbol b)=tr(\boldsymbol b \boldsymbol a^TdX)$ ，注意这里我们根据 $t r (A B) = t r (B A)$ 交换了 $aTdX\boldsymbol a^TdX$ 与 $b\boldsymbol b$ 。对照导数与微分的联系 $df=tr(∂fT∂XdX)df=tr\left ( \frac{\partial f^T}{\partial X} dX \right )$ ，得到 $∂f∂X=(baT)T=abT\frac{\partial f}{\partial X}=(\boldsymbol b \boldsymbol a^T)^T=\boldsymbol a \boldsymbol b^T$ 。

注意：这里不能用 $∂f∂X=aT∂X∂Xb=?\frac{\partial f}{\partial X}=\boldsymbol a^T\frac{\partial X}{\partial X}\boldsymbol b=?$ ，导数与乘常数矩阵的交换是不合法则的运算（而微分是合法的）。有些资料在计算矩阵导数时，会略过求微分这一步，这是逻辑上解释不通的。

例2： $\boldsymbol a^Texp(X \boldsymbol b)$ ，求 $∂f∂X\frac{\partial f}{\partial X}$ 。其中 $a\boldsymbol a$ 是 $\times 1$ 列向量，其中 $X$ 是 $\times n$ 矩阵，其中 $b\boldsymbol b$ 是 $\times 1$ 列向量， $e x p$ 表示逐元素求指数， $f$ 是标量。

解：先使用矩阵乘法、逐元素函数法则求微分： $df=aT(exp(Xb))⊙(dXb)df=\boldsymbol a^T(exp(X\boldsymbol b))\odot(dX\boldsymbol b)$ ，再套上迹并做交换： $df=tr(aT(exp(Xb))⊙(dXb)))=tr((a⊙exp(Xb))TdXb)=tr(b(a⊙exp(Xb))TdX)df=tr(\boldsymbol a^T(exp(X\boldsymbol b))\odot(dX\boldsymbol b)))=tr((\boldsymbol a \odot exp(X\boldsymbol b))^TdX\boldsymbol b)=tr(\boldsymbol b(\boldsymbol a \odot exp(X\boldsymbol b))^TdX)$ ，注意这里我们先根据 $tr(AT(B⊙C))=tr((A⊙B)TC)tr(A^T(B \odot C))=tr((A \odot B)^T C)$ 交换了 $a,exp(Xb)\boldsymbol a,exp(X\boldsymbol b)$ 与 $dXbdX\boldsymbol b$ ，再根据 $t r (A B) = t r (B A)$ 交换了 $(a⊙exp(Xb))TdX(\boldsymbol a \odot exp(X\boldsymbol b))^TdX$ 与 $b\boldsymbol b$ 。对照导数与微分的联系 $df=tr(∂fT∂XdX)df=tr\left ( \frac{\partial f^T}{\partial X} dX\right )$ ，得到 $∂f∂X=(b(a⊙exp(Xb))T)T=(a⊙exp(Xb))bT\frac{\partial f}{\partial X}=(\boldsymbol b(\boldsymbol a \odot exp(X\boldsymbol b))^T)^T=(\boldsymbol a \odot exp(X\boldsymbol b))\boldsymbol b^T$

例3： $f=tr(YTMY),Y=σ(WX)f=tr(Y^TMY),Y=\sigma(WX)$ 求 $∂f∂X\frac{\partial f}{\partial X}$ 其中 $W$ 是 $\times m$ 矩阵，其中 $X$ 是 $\times n$ 矩阵，其中 $Y$ 是 $\times n$ 矩阵，其中 $M$ 是 $\times l$ 矩阵， $σ\sigma$ 是逐元素函数， $f$ 是标量。

解：先求 $∂f∂Y\frac{\partial f}{\partial Y}$ ，求微分，使用矩阵乘法、转置法则： $df=tr((dY)^TMY)+tr(Y^TMdY)=tr(Y^TM^TdY)+tr(Y^TMdY)=tr(Y^T(M+M^T)dY)$ ，对照导数与微分的联系，得到 $∂f∂Y=(M+MT)Y=2MY\frac{\partial f}{\partial Y}=(M+M^T)Y=2MY$ ，这里是对称矩阵。为求 $∂f∂X\frac{\partial f}{\partial X}$ ，写出 $df=tr(∂fT∂YdY)df=tr\left ( \frac{\partial f^T}{\partial Y} dY \right )$ ，再将 $d Y$ 用 $d X$ 表示出来代入，并使用矩阵乘法/逐元素乘法交换： $df=tr(∂fT∂Y(σ′(WX)⊙(WdX))=tr((∂f∂Y⊙σ′(WX))TWdX)df=tr\left ( \frac{\partial f^T}{\partial Y}({\sigma}'(WX) \odot (WdX) \right )=tr\left ( {\left ( \frac{\partial f}{\partial Y} \odot {\sigma}'(WX) \right )}^T WdX \right )$ ，对照导数与微分的联系，得到 $∂f∂X=WT(∂f∂Y⊙σ′(WX))=WT((2Mσ(WXX))⊙σ′(WX))\frac{\partial f}{\partial X}=W^T\left ( \frac{\partial f}{\partial Y} \odot {\sigma}' (WX)\right )=W^T((2M\sigma(WXX)) \odot {\sigma}'(WX))$

例4【线性回归】： $l=∥Xω−y∥2l=\left \| X \boldsymbol \omega - \boldsymbol y \right \|^2$ ，求 $ω\boldsymbol \omega$ 的最小二乘估计，即求 $∂l∂ω\frac{\partial l}{\partial \boldsymbol \omega }$ 的零点。其中 $y\boldsymbol y$ 是 $\times 1$ 列向量， $X$ 是 $\times n$ 矩阵， $ω\boldsymbol \omega$ 是 $\times 1$ 列向量， $l$ 是标量。

解：严格来说这是标量对向量的导数，不过可以把向量看做矩阵的特例。先将向量模平方改写成向量与自身的内积： $l=(Xω−y)T(Xω−y)l=(X\boldsymbol \omega - \boldsymbol y)^T(X\boldsymbol \omega - \boldsymbol y)$ ，求微分，使用矩阵乘法、转置等法则： $dl=(Xdω)T(Xω−y)+(Xω−y)T(Xdω)=2(Xω−y)TXdωdl=(Xd\boldsymbol \omega )^T(X\boldsymbol \omega - \boldsymbol y)+(X\boldsymbol \omega - \boldsymbol y)^T(Xd\boldsymbol \omega )=2(X\boldsymbol \omega - \boldsymbol y)^TXd\boldsymbol \omega$ 。对照导数与微分的联系 $dl=∂lT∂ωdωdl=\frac{\partial l^T}{\partial \boldsymbol \omega }d\boldsymbol \omega$ ，得到 $∂l∂ω=(2(Xω−y)TX)T=2XT(Xω−y)\frac{\partial l}{\partial \boldsymbol \omega }=(2(X\boldsymbol \omega - \boldsymbol y)^TX)^T=2X^T(X\boldsymbol \omega - \boldsymbol y)$ 。 $∂l∂ω\frac{\partial l}{\partial \boldsymbol \omega }$ 零点即 $ω\boldsymbol \omega$ 的最小二乘估计为 $ω=(XTX)−1XTy\boldsymbol \omega =(X^TX)^{-1}X^T\boldsymbol y$ 。

例5【方差的最大似然估计】：样本 $x1,...,xN∼λ(μ,Σ)\boldsymbol x_1,...,\boldsymbol x_N\sim \lambda (\boldsymbol \mu , \Sigma )$ ，求方差 $Σ\Sigma$ 的最大似然估计。写成数学式是： $l=log∣Σ∣+1N∑i=1N(xi−xˉ)TΣ−1(xi−xˉ)l=log\left | \Sigma \right |+\frac{1}{N}\sum_{i=1}^N(\boldsymbol x_i-\bar \boldsymbol x)^T\Sigma ^{-1}(\boldsymbol x_i-\bar \boldsymbol x)$ ，求 $∂l∂Σ\frac{\partial l}{\partial \Sigma }$ 的零点。其中 $xi\boldsymbol x_{i}$ 是 $\times 1$ 向量， $Σ\Sigma$ 是 $\times m$ 对称正定矩阵， $xˉ=1N∑i=1Nxi\bar \boldsymbol x= \frac{1}{N} \sum_{i=1}^{N}\boldsymbol x_i$ 是样本均值， $l$ 是标量，log表示自然对数。

解：首先求微分，使用矩阵乘法、行列式、逆等运算法则，第一项是 $dlog∣Σ∣=∣Σ∣−1d∣Σ∣=tr(∣Σ∣−1dΣ)dlog\left | \Sigma \right |=\left | \Sigma \right |^{-1}d\left | \Sigma \right |=tr(\left | \Sigma \right |^{-1}d\Sigma )$ ，第二项是 $1N∑i=1N(xi−xˉ)TdΣ−1(xi−xˉ)=−1N∑i=1N(xi−xˉ)TΣ−1dΣΣ−1(xi−xˉ)\frac{1}{N}\sum_{i=1}^N(\boldsymbol x_i-\bar \boldsymbol x)^Td{\Sigma} ^{-1}(\boldsymbol x_i-\bar \boldsymbol x)= - \frac{1}{N}\sum_{i=1}^N(\boldsymbol x_i-\bar \boldsymbol x)^T {\Sigma} ^{-1} d\Sigma{\Sigma} ^{-1}(\boldsymbol x_i-\bar \boldsymbol x)$ 。再给第二项套上迹做交换： $tr(1N∑i=1N(xi−xˉ)TΣ−1dΣΣ−1(xi−xˉ))=1N∑i=1Ntr((xi−xˉ)TΣ−1dΣΣ−1(xi−xˉ))=1N∑i=1Ntr(Σ−1(xi−xˉ)(xi−xˉ)TΣ−1dΣ=tr(Σ−1SΣ−1dΣ)tr(\frac{1}{N}\sum_{i=1}^N(\boldsymbol x_i-\bar \boldsymbol x)^T {\Sigma} ^{-1} d\Sigma{\Sigma} ^{-1}(\boldsymbol x_i-\bar \boldsymbol x))= \frac{1}{N}\sum_{i=1}^N tr((\boldsymbol x_i-\bar \boldsymbol x)^T {\Sigma} ^{-1} d\Sigma{\Sigma} ^{-1}(\boldsymbol x_i-\bar \boldsymbol x))= \frac{1}{N}\sum_{i=1}^N tr({\Sigma} ^{-1} (\boldsymbol x_i-\bar \boldsymbol x)(\boldsymbol x_i-\bar \boldsymbol x)^T {\Sigma} ^{-1} d\Sigma=tr({\Sigma} ^{-1} S{\Sigma} ^{-1} d\Sigma)$ ，其中先交换迹与求和，然后将 $Σ−1(xi−xˉ)\Sigma ^{-1}(\boldsymbol x_i - \bar \boldsymbol x)$ 交换到左边，最后再交换迹与求和，并定义 $S=1N∑i=1N(xi−xˉ)(xi−xˉ)TS=\frac{1}{N} \sum_{i=1}^N(\boldsymbol x_i - \bar \boldsymbol x)(\boldsymbol x_i - \bar \boldsymbol x)^T$ 为样本方差矩阵。得到 $dl=tr((Σ−1−Σ−1SΣ−1)dΣ)dl=tr(({\Sigma} ^{-1} - \Sigma^{-1} S{\Sigma} ^{-1}) d\Sigma)$ 。对照导数与微分的联系，有 $∂l∂Σ=(Σ−1−Σ−1SΣ−1)T\frac{\partial l}{\partial \Sigma}=({\Sigma} ^{-1} - \Sigma^{-1} S{\Sigma} ^{-1})^T$ ，其零点即 $Σ\Sigma$ 的最大似然估计为 $Σ=S\Sigma = S$ 。

例6【多元logistic回归】： $\boldsymbol y^Tlog \ softmax(W \boldsymbol x)$ ，求 $∂l∂W\frac{\partial l}{\partial W}$ 。其中 $y\boldsymbol y$ 是除一个元素为1外其它元素为0的 $\times 1$ 列向量， $W$ 是 $\times n$ 矩阵， $x\boldsymbol x$ 是 $\times 1$ 矩阵， $l$ 是标量；log表示自然对数， $\boldsymbol a)=\frac{exp( \boldsymbol a)}{ \boldsymbol 1^T exp( \boldsymbol a)}$ ，其中 $e x p (a)$ 表示逐元素求指数， $1\boldsymbol 1$ 代表全1向量。

解1：首先将softmax函数代入并写成 $\boldsymbol y^T(log(exp(W \boldsymbol x))- \boldsymbol 1log( \boldsymbol 1^Texp(W \boldsymbol x)))=- \boldsymbol y^TW \boldsymbol x+log( \boldsymbol 1^Texp(W \boldsymbol x))$ ，这里要注意逐元素log满足等式 $\boldsymbol u /c)=log( \boldsymbol u)- \boldsymbol 1log(c)$ ，以及 $y\boldsymbol y$ 满足 $yT1=1\boldsymbol y^T \boldsymbol 1 = 1$ 。求微分，使用矩阵乘法、逐元素函数等法则： $\boldsymbol y^TdW\boldsymbol x + \frac{\boldsymbol 1^T(exp(W\boldsymbol x) \odot (dW\boldsymbol x))}{\boldsymbol 1^Texp(W\boldsymbol x)}$ 。再套上迹并做交换，注意可化简 $1T(exp(Wx)⊙(dWx))=exp(Wx)TdWx\boldsymbol 1^T(exp(W\boldsymbol x) \odot (dW\boldsymbol x))=exp(W\boldsymbol x)^TdW\boldsymbol x$ ，这是根据等式 $1T(u⊙v)=uTv\boldsymbol 1^T(\boldsymbol u \odot \boldsymbol v)=\boldsymbol u^T\boldsymbol v$ ，故 $dl=tr(−yTdWx+exp(Wx)TdWx1Texp(Wx))=tr(x(softmax(Wx)−yT)dW)dl=tr\left ( -\boldsymbol y^TdW\boldsymbol x + \frac{exp(W\boldsymbol x)^TdW\boldsymbol x}{1^T exp(W\boldsymbol x)} \right )=tr(\boldsymbol x(softmax(W\boldsymbol x)-\boldsymbol y^T)dW)$ 。对照导数与微分的联系，得到 $∂l∂W=(softmax(Wx)−y)xT\frac{\partial l}{\partial W}=(softmax(W\boldsymbol x)-\boldsymbol y)\boldsymbol x^T$ 。

解2：定义 $a=Wx\boldsymbol a=W\boldsymbol x$ ，则 $softmax(a)l=-\boldsymbol y^Tlog \ softmax(\boldsymbol a)$ ，先同上求出 $∂l∂a=softmax(a)−y\frac{\partial l}{\partial \boldsymbol a} = softmax(\boldsymbol a)-\boldsymbol y$ ，再利用复合法则： $tr\left ( \frac{\partial l^T}{\partial \boldsymbol a}d\boldsymbol a \right )=tr\left ( \frac{\partial l^T}{\partial \boldsymbol a}dW\boldsymbol x \right )=tr\left ( \boldsymbol x \frac{\partial l^T}{\partial \boldsymbol a}dW \right )$ ，得到 $∂l∂W=∂l∂axT\frac{\partial l}{\partial W}= \frac{\partial l}{\partial \boldsymbol a}\boldsymbol x^T$ 。

最后一例留给经典的神经网络。神经网络的求导术是学术史上的重要成果，还有个专门的名字叫做BP算法，我相信如今很多人在初次推导BP算法时也会颇费一番脑筋，事实上使用矩阵求导术来推导并不复杂。为简化起见，我们推导二层神经网络的BP算法。

例7【二层神经网络】： $softmax(W2σ(W1x))l=-\boldsymbol y^Tlog \ softmax(W_2 \sigma(W_1\boldsymbol x))$ ，求 $∂l∂W1\frac{\partial l}{\partial W_1}$ 和 $∂l∂W2\frac{\partial l}{\partial W_2}$ 。其中 $y\boldsymbol y$ 是除一个元素为1外其它元素为0的的 $\times 1$ 列向量， $W_2$ 是 $\times p$ 矩阵， $W_1$ 是 $\times n$ 矩阵， $x\boldsymbol x$ 是 $\times 1$ 矩阵， $l$ 是标量；log表示自然对数， $softmax(a)=exp(a)1Texp(a)softmax(\boldsymbol a)=\frac{exp(\boldsymbol a)}{\boldsymbol 1^Texp(\boldsymbol a)}$ 同上， $σ\sigma$ 是逐元素sigmoid函数。

解：定义 $a1=W1x,h1=σ(a1),a2=W2h1\boldsymbol a_1=W_1\boldsymbol x,\boldsymbol h_1=\sigma(\boldsymbol a_1),\boldsymbol a_2=W_2\boldsymbol h_1$ ，则 $softmax(a2)l=-\boldsymbol y^Tlog \ softmax(\boldsymbol a_2)$ 。在前例中已求出 $∂l∂a2=softmax(a2)−y\frac{\partial l}{\partial \boldsymbol a_2}=softmax(\boldsymbol a_2)-\boldsymbol y$ 。使用复合法则， $dl=tr(∂lT∂a2da2)=tr(∂lT∂a2dW2h1)+tr(∂lT∂a2W2dh1)⎵dl2dl=tr\left ( \frac{\partial l^T}{ \partial \boldsymbol a_2} d\boldsymbol a_2 \right)=tr\left ( \frac{\partial l^T}{ \partial \boldsymbol a_2} dW_2\boldsymbol h_1 \right ) + \underbrace{tr\left ( \frac{\partial l^T}{ \partial \boldsymbol a_2} W_2d\boldsymbol h_1 \right ) }_{dl_2}$ ，使用矩阵乘法交换的迹技巧从第一项得到 $∂l∂W2=∂l∂a2h1T\frac{\partial l}{\partial W_2}=\frac{\partial l}{\partial \boldsymbol a_2}h^T_1$ ，从第二项得到 $∂l∂h1=W2T∂l∂a2\frac{\partial l}{\partial \boldsymbol h_1}=W_2^T\frac{\partial l}{\partial \boldsymbol a_2}$ 。接下来对第二项继续使用复合法则来求 $∂l∂a1\frac{\partial l}{\partial \boldsymbol a_1}$ ，并利用矩阵乘法和逐元素乘法交换的迹技巧： $dl2=tr(∂lT∂h1dh1)=tr(∂lT∂h1(σ′(a1)⊙da1))=tr((∂l∂h1⊙σ′(a1))Tda1)dl_2=tr\left ( \frac{\partial l^T}{\partial \boldsymbol h_1}d\boldsymbol h_1 \right )=tr\left ( \frac{\partial l^T}{\partial \boldsymbol h_1}(\sigma'(\boldsymbol a_1) \odot d\boldsymbol a_1) \right )=tr\left ( \left ( \frac{\partial l}{\partial \boldsymbol h_1} \odot \sigma'(\boldsymbol a_1)\right )^Td\boldsymbol a_1 \right )$ ，得到 $∂l∂a1=∂l∂h1⊙σ′(a1)\frac{\partial l}{\partial \boldsymbol a_1}=\frac{\partial l}{\partial \boldsymbol h_1} \odot \sigma'(\boldsymbol a_1)$ 为求 $∂l∂W\frac{\partial l}{\partial W}$ ，再用一次复合法则： $dl2=tr(∂lT∂a1da1)=tr(∂lT∂a1dW1x)=tr(x∂lT∂a1dW1)dl_2=tr\left ( \frac{\partial l^T}{\partial \boldsymbol a_1}d\boldsymbol a_1 \right )=tr\left ( \frac{\partial l^T}{\partial \boldsymbol a_1}dW_1\boldsymbol x \right )=tr\left ( \boldsymbol x \frac{\partial l^T}{\partial \boldsymbol a_1}dW_1 \right )$ ，得到 $∂l∂W1=∂l∂a1xT\frac{\partial l}{\partial W_1}=\frac{\partial l}{\partial \boldsymbol a_1}\boldsymbol x^T$

推广：样本 $(x1,y1),....,(xN,yN)(\boldsymbol x_1,\boldsymbol y_1),....,(\boldsymbol x_N,\boldsymbol y_N)$ ， $\sum_{i=1}^N\boldsymbol y_i^T log \ softmax(W_2 \sigma(W_1\boldsymbol x_i+\boldsymbol b_1)+\boldsymbol b_2)$ ， $b1\boldsymbol b_1$ 是 $\times 1$ 列向量， $b2\boldsymbol b_2$ 是 $\times 1$ 列向量其余定义同上。

解1：定义 $a1,i=W1xi+b1,h1,i=σ(a1,i),a2,i=W2h1,i+b2\boldsymbol a_{1,i}=W_1\boldsymbol x_i+\boldsymbol b_1,\boldsymbol h_{1,i}=\sigma(\boldsymbol a_{1,i}),\boldsymbol a_{2,i}=W_2\boldsymbol h_{1,i}+\boldsymbol b_2$ ，则 $softmax(a2,i)l=-\sum_{i=1}^N\boldsymbol y_i^T log \ softmax(\boldsymbol a_{2,i})$ 。先同上可求出 $∂l∂a2,i=softmax(a2,i)−yi\frac{\partial l}{\partial \boldsymbol a_{2,i}}=softmax(\boldsymbol a_{2,i})-\boldsymbol y_i$ 。使用复合法则， $dl=tr(∑i=1N∂lT∂a2,ida2,i)=tr(∑i=1N∂lT∂a2,idW2h1,i)+tr(∑i=1N∂lT∂a2,iW2dh1,i)⎵dl2+tr(∑i=1N∂lT∂a2,idb2)dl=tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{2,i}} d\boldsymbol a_{2,i}\right )=tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{2,i}} dW_2\boldsymbol h_{1,i} \right ) + \underbrace{tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{2,i}}W_ 2d\boldsymbol h_{1,i} \right ) }_{dl_2} + tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{2,i}} d\boldsymbol b_2 \right )$ ，从第一项得到得到 $∂l∂W2=∑i=1N∂l∂a2,ih1,iT\frac{\partial l}{\partial W_2}=\sum_{i=1}^N\frac{\partial l}{\partial \boldsymbol a_{2,i} }\boldsymbol h_{1,i}^T$ ，从第二项得到 $∂l∂h1,i=W2T∂l∂a2,i\frac{\partial l}{\partial \boldsymbol h_{1,i}}=W_2^T\frac{\partial l}{\partial \boldsymbol a_{2,i} }$ ，从第三项得到 $∂l∂b2=∑i=1N∂l∂a2,i\frac{\partial l}{\partial \boldsymbol b_2}=\sum_{i=1}^N\frac{\partial l}{\partial \boldsymbol a_{2,i} }$ 。接下来对第二项继续使用复合法则，得到 $∂l∂a1,i=∂l∂h1,i⊙σ′(a1,i)\frac{\partial l}{\partial \boldsymbol a_{1,i}}=\frac{\partial l}{\partial \boldsymbol h_{1,i} } \odot \sigma'(\boldsymbol a_{1,i})$ 。为求 $∂l∂W1,∂l∂b1\frac{\partial l}{\partial W_1},\frac{\partial l}{\partial \boldsymbol b_1}$ ，再用一次复合法则： $dl2=tr(∑i=1N∂lT∂a1,ida1,i)=tr(∑i=1N∂lT∂a1,idW1xi)+tr(∑i=1N∂lT∂a1,idb1)dl_2=tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial a_{1,i}} d\boldsymbol a_{1,i}\right )=tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{1,i}} dW_1\boldsymbol x_{i} \right ) + tr\left ( \sum_{i=1}^N\frac{\partial l^T}{\partial \boldsymbol a_{1,i}} d\boldsymbol b_1 \right )$ 得到 $∂l∂W1=∑i=1N∂l∂a1,ixiT,∂l∂b1=∑i=1N∂l∂a1,i\frac{\partial l}{\partial W_1}= \sum_{i=1}^{N}\frac{\partial l}{\partial \boldsymbol a_{1, i}}x_i^T,\frac{\partial l}{\partial \boldsymbol b_1}=\sum_{i=1}^N \frac{\partial l}{\partial \boldsymbol a_{1, i}}$

解2：可以用矩阵来表示N个样本，以简化形式。定义 $X=[x1,...,xN],A1=[a1,1,..,a1,N]=W1X+b11T,H1=[h1,1,...,h1,N]=σ(A1),A2=[a2,1,..,a2,N]=W2H1+b21TX=[\boldsymbol x_1, ...,\boldsymbol x_N],A_1=[\boldsymbol a_{1,1},..,\boldsymbol a_{1,N}]=W_1X+\boldsymbol b_1\boldsymbol 1^T,H_1=[\boldsymbol h_{1,1},...,\boldsymbol h_{1,N}]=\sigma(A_1),A_2=[\boldsymbol a_{2,1},..,\boldsymbol a_{2,N}]=W_2H_1+\boldsymbol b_2\boldsymbol 1^T$ ，注意这里使用全1向量来扩展维度。先同上求出 $∂l∂A2=[softmax(a2,1)−y1,...,softmax(a2,N)−yN]\frac{\partial l}{\partial A_2}=[softmax(\boldsymbol a_{2,1})-\boldsymbol y_1,...,softmax(\boldsymbol a_{2,N})-\boldsymbol y_N]$ 。使用复合法则， $dl=tr(∂lT∂A2dA2)=tr(∂lT∂A2dW2H1)+tr(∂lT∂A2W2dH1)⎵dl2+tr(∂lT∂A2db21T)dl=tr\left ( \frac{\partial l^T}{\partial A_2} dA_2\right )=tr\left ( \frac{\partial l^T}{\partial A_2} dW_2H_1 \right ) + \underbrace{tr\left ( \frac{\partial l^T}{\partial A_2} W_2dH_1 \right )}_{dl_2} + tr\left ( \frac{\partial l^T}{\partial A_2} d\boldsymbol b_2\boldsymbol 1^T \right )$ ，从第一项得到 $∂l∂W2=∂l∂A2H1T\frac{\partial l}{\partial W_2}=\frac{\partial l}{\partial A_2}H_1^T$ ，从第二项得到 $∂l∂W1=W2T∂l∂A2\frac{\partial l}{\partial W_1}=W_2^T\frac{\partial l}{\partial A_2}$ ，从第三项得到到 $∂l∂b2=∂l∂A21\frac{\partial l}{\partial \boldsymbol b_2}=\frac{\partial l}{\partial A_2}\boldsymbol 1$ 。接下来对第二项继续使用复合法则，得到 $∂l∂A1=∂l∂H1⊙σ′(A1)\frac{\partial l}{\partial A_1}=\frac{\partial l}{\partial H_1} \odot \sigma'(A_1)$ 。为求 $∂l∂W1,∂l∂b1\frac{\partial l}{\partial W_1},\frac{\partial l}{\partial \boldsymbol b_1}$ ，再用一次复合法则： $dl2=tr(∂lT∂A1dA1)=tr(∂lT∂A1dW1X)+tr(∂lT∂A1db11T)dl_2=tr\left ( \frac{\partial l^T}{\partial A_1}dA_1 \right )=tr\left ( \frac{\partial l^T}{\partial A_1}dW_1X \right )+tr\left ( \frac{\partial l^T}{\partial A_1}d\boldsymbol b_1\boldsymbol 1^T \right )$ ，得到 $∂l∂W1=∂l∂A1XT,∂l∂b1=∂l∂A11\frac{\partial l}{\partial W_1}=\frac{\partial l}{\partial A_1}X^T,\frac{\partial l}{\partial \boldsymbol b_1}=\frac{\partial l}{\partial A_1}\boldsymbol 1$