矩阵求导 | 原理、公式、技巧与场景（篇 1）

原创已于 2025-12-01 12:19:49 修改 · 457 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#矩阵求导

于 2025-12-01 12:18:36 首次发布

mathematics 专栏收录该内容

195 篇文章

订阅专栏

注：本文来自 zhihu 长躯鬼侠 “矩阵求导” 相关文章重排。
如有内容异常，请看原文。

矩阵求导术（上）

长躯鬼侠发布于 2017-01-06 21:57

矩阵求导技术在统计学、控制论、机器学习等领域有着广泛的应用。鉴于部分资料或言之不详，或繁乱无绪，本文旨在进行科普，分为上下两篇。上篇主要介绍标量对矩阵的求导术，下篇则探讨矩阵对矩阵的求导术。

本文使用小写字母 $x$ 表示标量，粗体小写字母 $\mathbf{x}$ 表示（列）向量，大写字母 $X$ 表示矩阵。

一、定义与初步探讨

1.1 标量对矩阵的导数定义

首先探讨定义。标量 $f$ 对矩阵 $X$ 的导数定义为
$\frac{\partial f}{\partial X} = \left[\frac{\partial f}{\partial X_{ij}}\right],$
即 $f$ 对 $X$ 逐元素求导后，排成与 $X$ 尺寸相同的矩阵。然而，这一定义在实际计算中存在诸多不便。一方面，对于较为复杂的函数，逐元素求导往往难以实现；另一方面，从哲学角度而言，逐元素求导破坏了矩阵的整体性。试想，为何要将 $f$ 视作矩阵 $X$ 的函数，而非各元素 $X_{ij}$ 的函数？答案在于矩阵运算更为简洁。因此，在求导过程中不宜拆解矩阵，而应寻找一种从整体出发的算法。

1.2 导数与微分的联系

回顾一元微积分中，导数（标量对标量的导数）与微分存在联系：
$df = f^{'} (x) d x .$
在多元微积分中，梯度（标量对向量的导数）也与微分相关：
$\sum_{i=1}^n \frac{\partial f}{\partial x_i}dx_i = \frac{\partial f}{\partial \mathbf{x}}^T d\mathbf{x},$
其中第一个等号为全微分公式，第二个等号表达了梯度与微分的联系：全微分 $df$ 是梯度向量 $\frac{\partial f}{\partial \mathbf{x}}(n\times 1)$ 与微分向量 $d\mathbf{x}(n\times 1)$ 的内积。受此启发，我们将矩阵导数与微分建立联系：
$\sum_{i=1}^m \sum_{j=1}^n \frac{\partial f}{\partial X_{ij}}dX_{ij} = \text{tr}\left(\frac{\partial f}{\partial X}^T dX\right),$
其中 $\text{tr}$ 表示迹（trace），即方阵对角线元素之和。迹满足以下性质：对于尺寸相同的矩阵 $A$ 和 $B$ ，
$\text{tr}(A^TB) = \sum_{i,j}A_{ij}B_{ij},$
即 $\text{tr}(A^TB)$ 是矩阵 $A$ 和 $B$ 的内积。与梯度类似，第一个等号为全微分公式，第二个等号表达了矩阵导数与微分的联系：全微分 $df$ 是导数 $\frac{\partial f}{\partial X}(m\times n)$ 与微分矩阵 $dX(m\times n)$ 的内积。

二、矩阵微分运算法则

回顾一元函数求导过程，例如对于复杂函数 $\log(2+\sin x)e^{\sqrt{x}}$ ，通常不是从定义出发求极限，而是先建立初等函数求导、四则运算及复合等法则，再运用这些法则求导。因此，我们建立常用的矩阵微分运算法则如下：

2.1 基本运算法则

加减法：
$d(X\pm Y) = dX \pm dY,$
矩阵乘法：
$d (X Y) = (d X) Y + X d Y,$
转置：
$d(X^T) = (dX)^T,$
迹：
$d\text{tr}(X) = \text{tr}(dX).$

2.2 特殊运算法则

逆：
$dX^{-1} = -X^{-1}dX X^{-1}.$
此式可通过在 $XX^{-1}=I$ 两侧求微分来证明。

行列式：
$\text{tr}(X^{*}dX),$
其中 $X^{*}$ 表示 $X$ 的伴随矩阵。在 $X$ 可逆时，可写作
$|X|\text{tr}(X^{-1}dX).$
此式可用拉普拉斯展开来证明，详见张贤达《矩阵分析与应用》第 279 页。

逐元素乘法：
$d(X\odot Y) = dX\odot Y + X\odot dY,$
其中 $\odot$ 表示尺寸相同的矩阵 $X$ 和 $Y$ 逐元素相乘。

逐元素函数：
$d\sigma(X) = \sigma'(X)\odot dX,$
其中 $\sigma(X) = \left[\sigma(X_{ij})\right]$ 是逐元素标量函数运算， $\sigma'(X)=[\sigma'(X_{ij})]$ 是逐元素求导数。例如，若 $X=\left[\begin{matrix}X_{11} & X_{12} \\ X_{21} & X_{22}\end{matrix}\right]$ ，则
$\sin(X) = \left[\begin{matrix}\cos X_{11} dX_{11} & \cos X_{12} d X_{12}\\ \cos X_{21} d X_{21}& \cos X_{22} dX_{22}\end{matrix}\right] = \cos(X)\odot dX.$

三、迹技巧与求导方法

利用矩阵导数与微分的联系
$\text{tr}\left(\frac{\partial f}{\partial X}^T dX\right),$
在求出左侧的微分 $df$ 后，如何将其写成右侧的形式并得到导数？这需要借助一些迹技巧（trace trick）：

3.1 迹技巧

标量套上迹：
$\text{tr}(a).$

转置：
$\mathrm{tr}(A^T) = \mathrm{tr}(A).$

线性：
$\text{tr}(A\pm B) = \text{tr}(A)\pm \text{tr}(B).$

矩阵乘法交换：
$\text{tr}(AB) = \text{tr}(BA),$
其中 $A$ 与 $B^T$ 尺寸相同。两侧均等于 $\sum_{i,j}A_{ij}B_{ji}$ 。

矩阵乘法/逐元素乘法交换：
$\text{tr}(A^T(B\odot C)) = \text{tr}((A\odot B)^TC),$
其中 $A$ 、 $B$ 、 $C$ 尺寸相同。两侧均等于 $\sum_{i,j}A_{ij}B_{ij}C_{ij}$ 。

观察可得，若标量函数 $f$ 是矩阵 $X$ 经加减乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对 $f$ 求微分，再利用迹技巧给 $df$ 套上迹并将其他项交换至 $d X$ 左侧，对照导数与微分的联系
$\text{tr}\left(\frac{\partial f}{\partial X}^T dX\right),$
即可求得导数。

特别地，若矩阵退化为向量，对照导数与微分的联系
$\frac{\partial f}{\partial \mathbf{x}}^T d\mathbf{x},$
即可求得导数。

四、复合问题与复合法则

在建立法则的最后，讨论复合问题。假设已求得 $\frac{\partial f}{\partial Y}$ ，而 $Y$ 是 $X$ 的函数，如何求 $\frac{\partial f}{\partial X}$ ？在微积分中，标量求导的链式法则为
$\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} \frac{\partial y}{\partial x},$
但在此处不能随意沿用标量的链式法则，因为矩阵对矩阵的导数 $\frac{\partial Y}{\partial X}$ 截至目前仍未定义。因此，我们从微分入手建立复合法则：先写出
$\text{tr}\left(\frac{\partial f}{\partial Y}^T dY\right),$
再将 $d Y$ 用 $d X$ 表示并代入，利用迹技巧将其他项交换至 $d X$ 左侧，即可得到 $\frac{\partial f}{\partial X}$ 。

最常见的情形是 $Y = A XB$ ，此时

$\begin{align*} df &= \text{tr}\left(\frac{\partial f}{\partial Y}^T dY\right) \\&=\text{tr}\left(\frac{\partial f}{\partial Y}^T AdXB\right) \\ &= \text{tr}\left(B\frac{\partial f}{\partial Y}^T AdX\right) \\&= \text{tr}\left((A^T\frac{\partial f}{\partial Y}B^T)^T dX\right), \end{align*}$

从而可得
$\frac{\partial f}{\partial X}=A^T\frac{\partial f}{\partial Y}B^T.$
注意此处 $d Y = (d A) XB + A d XB + A X d B = A d XB$ ，由于 $A$ 和 $B$ 是常量， $d A = 0$ 、 $d B = 0$ ，且我们利用矩阵乘法交换的迹技巧交换了 $\frac{\partial f}{\partial Y}^T AdX$ 与 $B$ 。

五、算例演示

接下来通过一些算例进行演示。特别提醒，需依据已建立的运算法则进行计算，不能随意套用微积分中标量导数的结论，例如认为 $A X$ 对 $X$ 的导数为 $A$ ，这是没有根据且意义不明的。

例 1：线性变换的导数

问题： $\mathbf{a}^T X\mathbf{b}$ ，求 $\frac{\partial f}{\partial X}$ 。其中 $\mathbf{a}$ 是 $m\times 1$ 列向量， $X$ 是 $m\times n$ 矩阵， $\mathbf{b}$ 是 $n\times 1$ 列向量， $f$ 是标量。

解：首先利用矩阵乘法法则求微分，
$d\mathbf{a}^TX\mathbf{b}+\mathbf{a}^TdX\mathbf{b}+\mathbf{a}^TXd\mathbf{b} = \mathbf{a}^TdX\mathbf{b},$
注意到 $\mathbf{a}$ 和 $\mathbf{b}$ 是常量， $d\mathbf{a} = \mathbf{0}$ 、 $d\mathbf{b} = \mathbf{0}$ 。由于 $df$ 是标量，其迹等于自身，即 $\text{tr}(df)$ ，套上迹并进行矩阵乘法交换：
$\begin{align*} df &= \text{tr}(\mathbf{a}^TdX\mathbf{b}) \\ &= \text{tr}(\mathbf{b}\mathbf{a}^TdX) \\ &= \text{tr}((\mathbf{a}\mathbf{b}^T)^TdX), \end{align*}$

此处我们根据 $\text{tr}(AB) = \text{tr}(BA)$ 交换了 $\mathbf{a}^TdX$ 与 $\mathbf{b}$ 。对照导数与微分的联系 $\text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$ ，可得
$\frac{\partial f}{\partial X} = \mathbf{a}\mathbf{b}^T.$

注意：不能使用 $\frac{\partial f}{\partial X} =\mathbf{a}^T \frac{\partial X}{\partial X}\mathbf{b}=?$ ，因为导数与矩阵乘法的交换是不合法的运算（而微分是合法的）。有些资料在计算矩阵导数时，会略过求微分这一步，这是逻辑上无法解释的。

例 2：逐元素函数的导数

问题： $\mathbf{a}^T \exp(X\mathbf{b})$ ，求 $\frac{\partial f}{\partial X}$ 。其中 $\mathbf{a}$ 是 $m\times 1$ 列向量， $X$ 是 $m\times n$ 矩阵， $\mathbf{b}$ 是 $n\times 1$ 列向量， $\exp$ 表示逐元素求指数， $f$ 是标量。

解：首先利用矩阵乘法、逐元素函数法则求微分：
$\mathbf{a}^T(\exp(X\mathbf{b})\odot (dX\mathbf{b})),$
再套上迹并进行交换：

$\begin{align*} df &= \text{tr}\left( \mathbf{a}^T(\exp(X\mathbf{b})\odot (dX\mathbf{b}))\right) \\ &= \text{tr}\left((\mathbf{a}\odot \exp(X\mathbf{b}))^TdX \mathbf{b}\right) \\ &= \text{tr}\left(\mathbf{b}(\mathbf{a}\odot \exp(X\mathbf{b}))^TdX\right) \\ &= \text{tr}\left(((\mathbf{a}\odot \exp(X\mathbf{b}))\mathbf{b}^T)^TdX\right), \end{align*}$

此处我们先根据 $\text{tr}(A^T(B\odot C)) = \text{tr}((A\odot B)^TC)$ 交换了 $\mathbf{a}$ 、 $\exp(X\mathbf{b})$ 与 $dX\mathbf{b}$ ，再根据 $\text{tr}(AB) = \text{tr}(BA)$ 交换了 $(\mathbf{a}\odot \exp(X\mathbf{b}))^TdX$ 与 $\mathbf{b}$ 。对照导数与微分的联系 $\text{tr}\left(\frac{\partial f}{\partial X}^T dX\right)$ ，可得
$\frac{\partial f}{\partial X} = (\mathbf{a}\odot \exp(X\mathbf{b}))\mathbf{b}^T.$

例 3：复合函数的导数

问题： $\text{tr}(Y^T M Y)$ ， $\sigma(WX)$ ，求 $\frac{\partial f}{\partial X}$ 。其中 $W$ 是 $l\times m$ 矩阵， $X$ 是 $m\times n$ 矩阵， $Y$ 是 $l\times n$ 矩阵， $M$ 是 $l\times l$ 对称矩阵， $\sigma$ 是逐元素函数， $f$ 是标量。

解：首先求 $\frac{\partial f}{\partial Y}$ ，求微分，利用矩阵乘法、转置法则：
$\begin{align*} df &= \text{tr}((dY)^TMY) + \text{tr}(Y^TMdY) \\ &= \text{tr}(Y^TM^TdY) + \text{tr}(Y^TMdY) \\ &= \text{tr}(Y^T(M+M^T)dY), \end{align*}$
对照导数与微分的联系，可得
$\frac{\partial f}{\partial Y}=(M+M^T)Y = 2MY,$
注意此处 $M$ 是对称矩阵。为求 $\frac{\partial f}{\partial X}$ ，写出
$\text{tr}\left(\frac{\partial f}{\partial Y}^T dY\right),$
再将 $d Y$ 用 $d X$ 表示并代入，利用矩阵乘法/逐元素乘法交换：
$\begin{align*} df = \text{tr}\left(\frac{\partial f}{\partial Y}^T (\sigma'(WX)\odot (WdX))\right) \\= \text{tr}\left(\left(\frac{\partial f}{\partial Y} \odot \sigma'(WX)\right)^T W dX\right), \end{align*}$
对照导数与微分的联系，可得
$\begin{align*} \frac{\partial f}{\partial X}&=W^T \left(\frac{\partial f}{\partial Y}\odot \sigma'(WX)\right)\\&=W^T((2M\sigma(WX))\odot\sigma'(WX)). \end{align*}$

例 4：线性回归中的最小二乘估计

问题： $|X\mathbf{w}- \mathbf{y}|^2$ ，求 $\mathbf{w}$ 的最小二乘估计，即求 $\frac{\partial l}{\partial \mathbf{w}}$ 的零点。其中 $\mathbf{y}$ 是 $m\times 1$ 列向量， $X$ 是 $m\times n$ 矩阵， $\mathbf{w}$ 是 $n\times 1$ 列向量， $l$ 是标量。

解：这是标量对向量的导数，但可将向量视为矩阵的特例。首先将向量模平方改写成向量与自身的内积：
$(X\mathbf{w}- \mathbf{y})^T(X\mathbf{w}- \mathbf{y}),$
求微分，利用矩阵乘法、转置等法则：
$\begin{align*} dl &= (Xd\mathbf{w})^T(X\mathbf{w}-\mathbf{y})+(X\mathbf{w}-\mathbf{y})^T(Xd\mathbf{w}) \\&= 2(X\mathbf{w}-\mathbf{y})^TXd\mathbf{w}, \end{align*}$
注意到 $Xd\mathbf{w}$ 和 $X\mathbf{w}-\mathbf{y}$ 是向量，两个向量的内积满足 $\mathbf{u}^T\mathbf{v} = \mathbf{v}^T \mathbf{u}$ 。对照导数与微分的联系 $\frac{\partial l}{\partial \mathbf{w}}^Td\mathbf{w}$ ，可得
$\frac{\partial l}{\partial \mathbf{w}} = 2X^T(X\mathbf{w}-\mathbf{y}).$
令 $\frac{\partial l}{\partial \mathbf{w}}=\mathbf{0}$ ，即 $X^TX\mathbf{w} = X^T\mathbf{y}$ ，从而可得 $\mathbf{w}$ 的最小二乘估计为
$\mathbf{w} = (X^TX)^{-1}X^T\mathbf{y}.$

例 5：方差的最大似然估计

问题：样本 $\mathbf{x}_1,\dots, \mathbf{x}_N \sim \mathcal{N}(\mathbf{\mu}, \Sigma)$ ，求方差 $\Sigma$ 的最大似然估计。其数学表达式为：
$\log|\Sigma|+\frac{1}{N}\sum_{i=1}^N(\mathbf{x}_i-\mathbf{\bar{x}})^T\Sigma^{-1}(\mathbf{x}_i-\mathbf{\bar{x}}),$
求 $\frac{\partial l }{\partial \Sigma}$ 的零点。其中 $\mathbf{x}_i$ 是 $m\times 1$ 列向量， $\bar{\mathbf{x}}=\frac{1}{N}\sum_{i=1}^N \mathbf{x}_i$ 是样本均值， $\Sigma$ 是 $m\times m$ 对称正定矩阵， $l$ 是标量， $\log$ 表示自然对数。

解：首先求微分，利用矩阵乘法、行列式、逆等运算法则。第一项为
$d\log|\Sigma| = |\Sigma|^{-1}d|\Sigma| = \text{tr}(\Sigma^{-1}d\Sigma),$
第二项为
$\frac{1}{N}\sum_{i=1}^N(\mathbf{x}_i-\mathbf{\bar{x}})^Td\Sigma^{-1}(\mathbf{x}_i-\mathbf{\bar{x}}) = -\frac{1}{N}\sum_{i=1}^N(\mathbf{x}_i-\mathbf{\bar{x}})^T\Sigma^{-1}d\Sigma\Sigma^{-1}(\mathbf{x}_i-\mathbf{\bar{x}}).$
再为第二项套上迹并进行交换：
$\begin{aligned} \text{tr}\left( \frac{1}{N} \sum_{i=1}^{N} ({{\mathbf{x}}_{i}} - \mathbf{\bar{x}})^T \Sigma^{-1} d\Sigma \Sigma^{-1} ({{\mathbf{x}}_{i}} - \mathbf{\bar{x}}) \right) &= \frac{1}{N} \sum_{i=1}^{N} \text{tr}\left( ({{\mathbf{x}}_{i}} - \mathbf{\bar{x}})^T \Sigma^{-1} d\Sigma \Sigma^{-1} ({{\mathbf{x}}_{i}} - \mathbf{\bar{x}}) \right) \\ &= \frac{1}{N} \sum_{i=1}^{N} \text{tr}\left( \Sigma^{-1} ({{\mathbf{x}}_{i}} - \mathbf{\bar{x}}) ({{\mathbf{x}}_{i}} - \mathbf{\bar{x}})^T \Sigma^{-1} d\Sigma \right) \\ &= \text{tr}\left( \Sigma^{-1} S \Sigma^{-1} d\Sigma \right), \end{aligned}$
其中先交换迹与求和，再将 $\Sigma^{-1} (\mathbf{x}_i-\mathbf{\bar{x}})$ 交换到左边，最后再交换迹与求和，并定义 $\frac{1}{N}\sum_{i=1}^N(\mathbf{x}_i-\mathbf{\bar{x}})(\mathbf{x}_i-\mathbf{\bar{x}})^T$ 为样本方差矩阵。因此可得
$\text{tr}\left(\left(\Sigma^{-1}-\Sigma^{-1}S\Sigma^{-1}\right)d\Sigma\right).$
对照导数与微分的联系，有
$\frac{\partial l }{\partial \Sigma}=(\Sigma^{-1}-\Sigma^{-1}S\Sigma^{-1})^T,$
其零点即 $\Sigma$ 的最大似然估计为
$\Sigma = S.$

例 6：多元 logistic 回归中的导数

问题： $-\mathbf{y}^T\log\text{softmax}(W\mathbf{x})$ ，求 $\frac{\partial l}{\partial W}$ 。其中 $\mathbf{y}$ 是除一个元素为 1 外其他元素为 0 的 $m\times 1$ 列向量， $W$ 是 $m\times n$ 矩阵， $\mathbf{x}$ 是 $n\times 1$ 列向量， $l$ 是标量； $\log$ 表示自然对数， $\text{softmax}(\mathbf{a}) = \frac{\exp(\mathbf{a})}{\mathbf{1}^T\exp(\mathbf{a})}$ ，其中 $\exp(\mathbf{a})$ 表示逐元素求指数， $\mathbf{1}$ 代表全 1 向量。

解 1：首先将 softmax 函数代入并写成
$\begin{aligned} l &= -\mathbf{y}^T \left(\log (\exp(W\mathbf{x}))-\mathbf{1}\log(\mathbf{1}^T\exp(W\mathbf{x}))\right) \\&= -\mathbf{y}^TW\mathbf{x} + \log(\mathbf{1}^T\exp(W\mathbf{x})), \end{aligned}$
注意到逐元素 $\log$ 满足等式 $\log(\mathbf{u}/c) = \log(\mathbf{u}) - \mathbf{1}\log(c)$ ，以及 $\mathbf{y}$ 满足 $\mathbf{y}^T \mathbf{1} = 1$ 。求微分，利用矩阵乘法、逐元素函数等法则：
$\mathbf{y}^TdW\mathbf{x}+\frac{\mathbf{1}^T\left(\exp(W\mathbf{x})\odot(dW\mathbf{x})\right)}{\mathbf{1}^T\exp(W\mathbf{x})}.$
再套上迹并进行交换，注意到可化简 $\mathbf{1}^T\left(\exp(W\mathbf{x})\odot(dW\mathbf{x})\right) = \exp(W\mathbf{x})^TdW\mathbf{x}$ ，这是根据等式 $\mathbf{1}^T (\mathbf{u}\odot \mathbf{v}) = \mathbf{u}^T \mathbf{v}$ ，因此
$\begin{align*} dl &= \text{tr}\left(-\mathbf{y}^TdW\mathbf{x}+\frac{\exp(W\mathbf{x})^TdW\mathbf{x}}{\mathbf{1}^T\exp(W\mathbf{x})}\right)\\ & =\text{tr}(-\mathbf{y}^TdW\mathbf{x}+\text{softmax}(W\mathbf{x})^TdW\mathbf{x}) \\& = \text{tr}(\mathbf{x}(\text{softmax}(W\mathbf{x})-\mathbf{y})^TdW). \end{align*}$
对照导数与微分的联系，可得
$\frac{\partial l}{\partial W}= (\text{softmax}(W\mathbf{x})-\mathbf{y})\mathbf{x}^T.$

解 2：定义 $\mathbf{a} = W\mathbf{x}$ ，则
$-\mathbf{y}^T\log\text{softmax}(\mathbf{a}),$
先同上求出
$\frac{\partial l}{\partial \mathbf{a}} = \text{softmax}(\mathbf{a})-\mathbf{y},$
再利用复合法则：
$\begin{align*} dl &= \text{tr}\left(\frac{\partial l}{\partial \mathbf{a}}^Td\mathbf{a}\right) \\&= \text{tr}\left(\frac{\partial l}{\partial \mathbf{a}}^TdW \mathbf{x}\right) \\&= \text{tr}\left(\mathbf{x}\frac{\partial l}{\partial \mathbf{a}}^TdW\right), \end{align*}$
可得
$\frac{\partial l}{\partial W}= \frac{\partial l}{\partial\mathbf{a}}\mathbf{x}^T.$

例 7：二层神经网络中的 BP 算法

问题： $-\mathbf{y}^T\log\text{softmax}(W_2\sigma(W_1\mathbf{x}))$ ，求 $\frac{\partial l}{\partial W_1}$ 和 $\frac{\partial l}{\partial W_2}$ 。其中 $\mathbf{y}$ 是除一个元素为 1 外其他元素为 0 的 $m\times 1$ 列向量， $W_2$ 是 $m\times p$ 矩阵， $W_1$ 是 $\times n$ 矩阵， $\mathbf{x}$ 是 $n\times 1$ 列向量， $l$ 是标量； $\log$ 表示自然对数， $\text{softmax}(\mathbf{a}) = \frac{\exp(\mathbf{a})}{\mathbf{1}^T\exp(\mathbf{a})}$ ，同上， $\sigma$ 是逐元素 sigmoid 函数 $\sigma(a) = \frac{1}{1+\exp(-a)}$ 。

解：定义 $\mathbf{a}_1=W_1\mathbf{x}$ ， $\mathbf{h}_1 = \sigma(\mathbf{a}_1)$ ， $\mathbf{a}_2 = W_2 \mathbf{h}_1$ ，则
$=-\mathbf{y}^T\log\text{softmax}(\mathbf{a}_2).$
在前例中已求出
$\frac{\partial l}{\partial \mathbf{a}_2} = \text{softmax}(\mathbf{a}_2)-\mathbf{y}.$
利用复合法则，
$\begin{align*} dl &= \text{tr}\left(\frac{\partial l}{\partial \mathbf{a}_2}^Td\mathbf{a}_2\right) \\&= \text{tr}\left(\frac{\partial l}{\partial \mathbf{a}_2}^TdW_2 \mathbf{h}_1\right) + \underbrace{ \text{tr}\left(\frac{\partial l}{\partial \mathbf{a}_2}^TW_2 d\mathbf{h}_1\right)}_{dl_2}, \end{align*}$
利用矩阵乘法交换的迹技巧从第一项可得
$\frac{\partial l}{\partial W_2}= \frac{\partial l}{\partial\mathbf{a}_2}\mathbf{h}_1^T,$
从第二项可得
$\frac{\partial l}{\partial \mathbf{h}_1}= W_2^T\frac{\partial l}{\partial\mathbf{a}_2}.$
接下来对第二项继续利用复合法则求 $\frac{\partial l}{\partial \mathbf{a}_1}$ ，并利用矩阵乘法和逐元素乘法交换的迹技巧：
$\begin{align*} dl_2 &= \text{tr}\left(\frac{\partial l}{\partial\mathbf{h}_1}^Td\mathbf{h}_1\right) \\&= \text{tr}\left(\frac{\partial l}{\partial\mathbf{h}_1}^T(\sigma'(\mathbf{a}_1)\odot d\mathbf{a}_1)\right) \\&= \text{tr}\left(\left(\frac{\partial l}{\partial\mathbf{h}_1}\odot \sigma'(\mathbf{a}_1)\right)^Td\mathbf{a}_1\right), \end{align*}$
可得
$\frac{\partial l}{\partial \mathbf{a}_1}= \frac{\partial l}{\partial\mathbf{h}_1}\odot\sigma'(\mathbf{a}_1).$
为求 $\frac{\partial l}{\partial W_1}$ ，再利用一次复合法则：
$\begin{align*} dl_2 &= \text{tr}\left(\frac{\partial l}{\partial\mathbf{a}_1}^Td\mathbf{a}_1\right) \\&= \text{tr}\left(\frac{\partial l}{\partial\mathbf{a}_1}^TdW_1\mathbf{x}\right) \\&= \text{tr}\left(\mathbf{x}\frac{\partial l}{\partial\mathbf{a}_1}^TdW_1\right), \end{align*}$
可得
$\frac{\partial l}{\partial W_1}= \frac{\partial l}{\partial\mathbf{a}_1}\mathbf{x}^T.$

推广：多样本情况下的二层神经网络

问题：样本 $(\mathbf{x}_1, y_1), \dots, (\mathbf{x}_N,y_N)$ ，
$-\sum_{i=1}^N \mathbf{y}_i^T\log\text{softmax}(W_2\sigma(W_1\mathbf{x}_i + \mathbf{b}_1) + \mathbf{b}_2),$
其中 $\mathbf{b}_1$ 是 $\times 1$ 列向量， $\mathbf{b}_2$ 是 $m\times 1$ 列向量，其余定义同上。

解 1：定义 $\mathbf{a}_{1,i} = W_1 \mathbf{x}_i + \mathbf{b}_1$ ， $\mathbf{h}_{1,i} = \sigma(\mathbf{a}_{1,i})$ ， $\mathbf{a}_{2,i} = W_2\mathbf{h}_{1,i} + \mathbf{b}_2$ ，则
$-\sum_{i=1}^N \mathbf{y}_i^T \log \text{softmax}(\mathbf{a}_{2,i}).$
先同上可求出
$\frac{\partial l}{\partial \mathbf{a}_{2,i}} = \text{softmax}(\mathbf{a}_{2,i})-\mathbf{y}_i.$
利用复合法则，
$\begin{align*} dl &= \text{tr}\left( \left( \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{2,i}}^T d\mathbf{a}_{2,i} \right) \right) \\ &= \text{tr}\left( \left( \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{2,i}}^T d\mathbf{W}_2 \mathbf{h}_{1,i} \right) \right) + \underbrace{\text{tr}\left( \left( \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{2,i}}^T \mathbf{W}_2 d\mathbf{h}_{1,i} \right) \right)}_{dI_2} + \text{tr}\left( \sum_{i=1}^N \cdots \right) \end{align*}$
从第二项可得：
$\frac{\partial l}{\partial \mathbf{h}_{1,i}} = \mathbf{W}_2^T \frac{\partial l}{\partial \mathbf{a}_{2,i}}$
从第三项可得：
$\frac{\partial l}{\partial \mathbf{W}_2} = \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{2,i}} \mathbf{h}_{1,i}^T$
接下来对第二项继续利用复合法则，得到：
$\frac{\partial l}{\partial \mathbf{a}_{1,i}} = \frac{\partial l}{\partial \mathbf{h}_{1,i}} \odot \sigma'(\mathbf{a}_{1,i})$
为求 $\frac{\partial l}{\partial \mathbf{W}_1}$ 和 $\frac{\partial l}{\partial \mathbf{b}_1}$ ，再利用一次复合法则：
$\begin{align*} dI_2 &= \text{tr}\left( \left( \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{1,i}}^T d\mathbf{a}_{1,i} \right) \right) \\ &= \text{tr}\left( \left( \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{1,i}}^T d\mathbf{W}_1 \mathbf{x}_i \right) \right) + \text{tr}\left( \left( \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{1,i}}^T d\mathbf{b}_1 \right) \right) \end{align*}$
可得：
$\frac{\partial l}{\partial \mathbf{W}_1} = \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{1,i}} \mathbf{x}_i^T, \quad \frac{\partial l}{\partial \mathbf{b}_1} = \sum_{i=1}^N \frac{\partial l}{\partial \mathbf{a}_{1,i}}$

解 2：矩阵表示形式

定义（ $N$ 个样本的矩阵形式）：

输入矩阵： $\mathbf{X} = [\mathbf{x}_1, \dots, \mathbf{x}_N]$
第一层线性输出： $\mathbf{A}_1 = [\mathbf{a}_{1,1}, \dots, \mathbf{a}_{1,N}] = \mathbf{W}_1 \mathbf{X} + \mathbf{b}_1 \mathbf{1}^T$
第一层激活输出： $\mathbf{H}_1 = [\mathbf{h}_{1,1}, \dots, \mathbf{h}_{1,N}] = \sigma(\mathbf{A}_1)$
第二层线性输出： $\mathbf{A}_2 = [\mathbf{a}_{2,1}, \dots, \mathbf{a}_{2,N}] = \mathbf{W}_2 \mathbf{H}_1 + \mathbf{b}_2 \mathbf{1}^T$

（注： $\mathbf{1}$ 是全 1 向量，用于扩展维度）

先求出损失对第二层线性输出的导数：
$\frac{\partial l}{\partial \mathbf{A}_2} = [\text{softmax}(\mathbf{a}_{2,1}) - \mathbf{y}_1, \dots, \text{softmax}(\mathbf{a}_{2,N}) - \mathbf{y}_N]$

利用复合法则，对 $\mathbf{A}_2$ 求微分：
$\begin{align*} dl &= \text{tr}\left( \frac{\partial l}{\partial \mathbf{A}_2}^T d\mathbf{A}_2 \right) \\ &= \text{tr}\left( \frac{\partial l}{\partial \mathbf{A}_2}^T d\mathbf{W}_2 \mathbf{H}_1 \right) + \underbrace{\text{tr}\left( \frac{\partial l}{\partial \mathbf{A}_2}^T \mathbf{W}_2 d\mathbf{H}_1 \right)}_{dI_2} + \text{tr}\left( \frac{\partial l}{\partial \mathbf{A}_2}^T d\mathbf{b}_2 \mathbf{1}^T \right) \end{align*}$

从各项可得导数：

对 $\mathbf{W}_2$ 的导数： $\frac{\partial l}{\partial \mathbf{W}_2} = \frac{\partial l}{\partial \mathbf{A}_2} \mathbf{H}_1^T$
对 $\mathbf{H}_1$ 的导数： $\frac{\partial l}{\partial \mathbf{H}_1} = \mathbf{W}_2^T \frac{\partial l}{\partial \mathbf{A}_2}$
对 $\mathbf{b}_2$ 的导数： $\frac{\partial l}{\partial \mathbf{b}_2} = \frac{\partial l}{\partial \mathbf{A}_2} \mathbf{1}$

对 $\mathbf{H}_1$ 继续利用复合法则（激活函数的导数）：
$\frac{\partial l}{\partial \mathbf{A}_1} = \frac{\partial l}{\partial \mathbf{H}_1} \odot \sigma'(\mathbf{A}_1)$

为求 $\frac{\partial l}{\partial \mathbf{W}_1}$ 和 $\frac{\partial l}{\partial \mathbf{b}_1}$ ，对 $\mathbf{A}_1$ 求微分：
$\begin{align*} dI_2 &= \text{tr}\left( \frac{\partial l}{\partial \mathbf{A}_1}^T d\mathbf{A}_1 \right) \\ &= \text{tr}\left( \frac{\partial l}{\partial \mathbf{A}_1}^T d\mathbf{W}_1 \mathbf{X} \right) + \text{tr}\left( \frac{\partial l}{\partial \mathbf{A}_1}^T d\mathbf{b}_1 \mathbf{1}^T \right) \end{align*}$

可得导数：

对 $\mathbf{W}_1$ 的导数： $\frac{\partial l}{\partial \mathbf{W}_1} = \frac{\partial l}{\partial \mathbf{A}_1} \mathbf{X}^T$
对 $\mathbf{b}_1$ 的导数： $\frac{\partial l}{\partial \mathbf{b}_1} = \frac{\partial l}{\partial \mathbf{A}_1} \mathbf{1}$