矩阵求导 | 原理、公式、技巧与场景（篇 2）

原创于 2025-12-01 12:20:19 发布 · 621 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#矩阵求导

mathematics 专栏收录该内容

195 篇文章

订阅专栏

注：本文来自 zhihu 长躯鬼侠 “矩阵求导” 相关文章重排。
如有内容异常，请看原文。

矩阵求导术（下）

长躯鬼侠发布于 2017-01-21 07:50

本文承接上篇，主要介绍矩阵对矩阵的求导术。矩阵对矩阵的求导采用了向量化的思路，常用于二阶方法中 Hessian 矩阵的分析。

本文使用小写字母 $x$ 表示标量，粗体小写字母 $\mathbf{x}$ 表示列向量，大写字母 $\mathbf{X}$ 表示矩阵。

一、定义

矩阵对矩阵的导数需满足以下条件：

矩阵 $\mathbf{F}(p \times q)$ 对矩阵 $\mathbf{X}(m \times n)$ 的导数，需包含所有 $mn pq$ 个偏导数 $\frac{\partial F_{kl}}{\partial X_{ij}}$ ，不损失信息；
导数与微分有简明的联系（计算与应用的需求）；
导数有从整体出发的简明算法。

1.1 向量对向量的导数

先定义向量 $\mathbf{f}(p \times 1)$ 对向量 $\mathbf{x}(m \times 1)$ 的导数：
$\frac{\partial \mathbf{f}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \dots & \frac{\partial f_1}{\partial x_m} \\ \frac{\partial f_2}{\partial x_1} & \frac{\partial f_2}{\partial x_2} & \dots & \frac{\partial f_2}{\partial x_m} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_p}{\partial x_1} & \frac{\partial f_p}{\partial x_2} & \dots & \frac{\partial f_p}{\partial x_m} \end{bmatrix}$

满足微分关系：
$d\mathbf{f} = \frac{\partial \mathbf{f}}{\partial \mathbf{x}}^T d\mathbf{x}$

1.2 矩阵的向量化

定义矩阵的按列优先向量化：
$\text{vec}(\mathbf{X}) = [X_{11}, \dots, X_{m1}, X_{12}, \dots, X_{m2}, \dots, X_{1n}, \dots, X_{mn}]^T \quad (mn \times 1)$

1.3 矩阵对矩阵的导数

定义矩阵 $\mathbf{F}$ 对矩阵 $\mathbf{X}$ 的导数：
$\frac{\partial \mathbf{F}}{\partial \mathbf{X}} = \frac{\partial \text{vec}(\mathbf{F})}{\partial \text{vec}(\mathbf{X})} \quad (mn \times pq)$

导数与微分的联系：
$\text{vec}(d\mathbf{F}) = \frac{\partial \mathbf{F}}{\partial \mathbf{X}}^T \text{vec}(d\mathbf{X})$

二、几点说明

2.1 标量对矩阵的导数

按此定义，标量 $f$ 对矩阵 $\mathbf{X}(m \times n)$ 的导数 $\frac{\partial f}{\partial \mathbf{X}}$ 是 $mn \times 1$ 向量，与上篇定义（ $\times n$ 矩阵 $\nabla_{\mathbf{X}} f$ ）不兼容，但可转换：
$\frac{\partial f}{\partial \mathbf{X}} = \text{vec}(\nabla_{\mathbf{X}} f)$
（注：标量对矩阵求导用上篇方法更方便）

2.2 Hessian 矩阵（标量对矩阵的二阶导数）

定义为：
$\nabla_{\mathbf{X}}^2 f = \frac{\partial^2 f}{\partial \mathbf{X}^2} = \frac{\partial \nabla_{\mathbf{X}} f}{\partial \mathbf{X}} \quad (mn \times mn)$
是对称矩阵。对 $\frac{\partial f}{\partial \mathbf{X}}$ 或 $\nabla_{\mathbf{X}} f$ 求导均可得到 Hessian 矩阵，但从 $\nabla_{\mathbf{X}} f$ 出发更方便。

2.3 向量化的优缺点

缺点：矩阵被向量化后破坏了原有结构，结果形式复杂；
优点：多元微积分中关于梯度、Hessian 矩阵的结论可直接沿用（只需将矩阵向量化）。例如优化问题中，牛顿法的更新量 $\Delta \mathbf{X}$ 满足：

$\text{vec}(\Delta \mathbf{X}) = -(\nabla_{\mathbf{X}}^2 f)^{-1} \text{vec}(\nabla_{\mathbf{X}} f)$

2.4 其他定义的说明

资料中矩阵对矩阵的导数还有其他定义（如 $\frac{\partial \mathbf{X}}{\partial \mathbf{F}} = \frac{\partial F_{kl}}{\partial X_{ij}} (m \times nq)$ 等），虽能兼容标量对矩阵的导数，但微分与导数的联系不简明，不便计算和应用。

2.5 布局差异

本文使用分子布局（与机器学习中的梯度定义一致）；而控制论等领域常用Jacobian 矩阵的分母布局，此时向量 $\mathbf{f}$ 对向量 $\mathbf{x}$ 的导数定义为：
$\frac{\partial \mathbf{f}}{\partial \mathbf{x}} = \begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \frac{\partial f_2}{\partial x_1} & \dots & \frac{\partial f_p}{\partial x_1} \\ \frac{\partial f_1}{\partial x_2} & \frac{\partial f_2}{\partial x_2} & \dots & \frac{\partial f_p}{\partial x_2} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial f_1}{\partial x_m} & \frac{\partial f_2}{\partial x_m} & \dots & \frac{\partial f_p}{\partial x_m} \end{bmatrix}$

对应微分关系：
$d\mathbf{f} = \frac{\partial \mathbf{f}}{\partial \mathbf{x}} d\mathbf{x}$

两种布局的导数互为转置，微分步骤相同，仅导数与微分的联系有转置区别，可根据领域习惯选择。

三、运算法则（基于向量化）

利用导数与微分的联系 $\text{vec}(d\mathbf{F}) = \frac{\partial \mathbf{F}}{\partial \mathbf{X}}^T \text{vec}(d\mathbf{X})$ ，结合微分方法（与上篇相同），需用到向量化技巧：

3.1 线性运算

$\text{vec}(\mathbf{A} + \mathbf{B}) = \text{vec}(\mathbf{A}) + \text{vec}(\mathbf{B})$

3.2 矩阵乘法

$\text{vec}(\mathbf{A}\mathbf{X}\mathbf{B}) = (\mathbf{B}^T \otimes \mathbf{A}) \text{vec}(\mathbf{X})$

其中 $\otimes$ 是 Kronecker 积： $\mathbf{A}(m \times n)$ 与 $\mathbf{B}(p \times q)$ 的 Kronecker 积为 $\mathbf{A} \otimes \mathbf{B} = [A_{ij}\mathbf{B}] (mp \times nq)$ 。

3.3 转置

$\text{vec}(\mathbf{A}^T) = \mathbf{K}_{mn} \text{vec}(\mathbf{A})$

其中 $\mathbf{A}$ 是 $\times n$ 矩阵， $\mathbf{K}_{mn}(mn \times mn)$ 是交换矩阵（commutation matrix），将按列优先的向量化转换为按行优先的向量化。例如：
$\mathbf{K}_{22} = \begin{bmatrix} 1 & 0 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 \end{bmatrix}$

3.4 逐元素乘法

$\text{vec}(\mathbf{A} \odot \mathbf{X}) = \text{diag}(\mathbf{A}) \text{vec}(\mathbf{X})$

其中 $\text{diag}(\mathbf{A})$ 是将 $\mathbf{A}$ 的元素按列优先排列的对角矩阵，其维度为 $mn \times mn$ 。

四、求导示例

观察可得：若矩阵函数 $\mathbf{F}$ 是矩阵 $\mathbf{X}$ 经加、减、乘法、逆、行列式、逐元素函数等运算构成，则使用相应的运算法则对 $\mathbf{F}$ 求微分，再做向量化并使用技巧将其他项交换至 $\text{vec}(d\mathbf{X})$ 左侧，对照导数与微分的联系
$\text{vec}(d\mathbf{F}) = \frac{\partial \mathbf{F}}{\partial \mathbf{X}}^T \text{vec}(d\mathbf{X}),$
即可求得导数。

特别地，若矩阵退化为向量，对照导数与微分的联系
$d\mathbf{f} = \frac{\partial \mathbf{f}}{\partial \mathbf{x}}^T d\mathbf{x},$
即可求得导数。

再讨论复合问题：假设已求得 $\frac{\partial F}{\partial Y}$ ，而 $Y$ 是 $X$ 的函数，如何求 $\frac{\partial F}{\partial X}$ ？从导数与微分的联系入手，
$\begin{align*} \mathrm{vec}(dF) &= \frac{\partial F}{\partial Y}^T\mathrm{vec}(dY) \\&= \frac{\partial F}{\partial Y}^T\frac{\partial Y}{\partial X}^T\mathrm{vec}(dX), \end{align*}$
可以推出链式法则
$\frac{\partial F}{\partial X} = \frac{\partial Y}{\partial X}\frac{\partial F}{\partial Y}.$

与标量对矩阵的导数相比，矩阵对矩阵的导数形式更加复杂，从不同角度出发常会得到形式不同的结果。有一些 Kronecker 积和交换矩阵相关的恒等式，可用来做等价变形：

$(A\otimes B)^T = A^T \otimes B^T$ 。
$\mathrm{vec}(\mathbf{ab}^T) = \mathbf{b}\otimes\mathbf{a}$ 。
$(A\otimes B)(C\otimes D) = (AC)\otimes (BD)$ 。可以对 $F = D^TB^TXAC$ 求导来证明，一方面，直接求导得到

$\frac{\partial F}{\partial X} = (AC) \otimes (BD);$

另一方面，引入 $Y = B^T X A$ ，有
$\frac{\partial F}{\partial Y} = C \otimes D, \quad \frac{\partial Y}{\partial X} = A \otimes B,$
利用链式法则得到
$\frac{\partial F}{\partial X} = (A\otimes B)(C \otimes D).$

$K_{mn} = K_{nm}^T$ ， $K_{mn}K_{nm} = I$ 。
$K_{pm}(A\otimes B) K_{nq} = B\otimes A$ ， $A$ 是 $m\times n$ 矩阵， $B$ 是 $p\times q$ 矩阵。可以对 $AXB^T$ 做向量化来证明，一方面，

$\mathrm{vec}(AXB^T) = (B\otimes A)\mathrm{vec}(X);$

另一方面，
$\begin{align*} \mathrm{vec}(AXB^T) &= K_{pm}\mathrm{vec}(BX^TA^T) \\&= K_{pm}(A\otimes B)\mathrm{vec}(X^T) \\&= K_{pm}(A\otimes B) K_{nq}\mathrm{vec}(X). \end{align*}$

五、算例演示

例 1：线性变换的导数

问题： $F = A X$ ， $X$ 是 $m\times n$ 矩阵，求 $\frac{\partial F}{\partial X}$ 。

解：先求微分：
$d F = A d X,$
再做向量化，利用矩阵乘法的技巧，注意在 $d X$ 右侧添加单位阵：
$\mathrm{vec}(dF) = \mathrm{vec}(AdX) = (I_n\otimes A)\mathrm{vec}(dX),$
对照导数与微分的联系得到
$\frac{\partial F}{\partial X} = I_n\otimes A^T.$

特例：如果 $X$ 退化为向量，即 $\mathbf{f} = A \mathbf{x}$ ，则根据向量的导数与微分的关系
$d\mathbf{f} = \frac{\partial \mathbf{f}}{\partial \mathbf{x}}^T d\mathbf{x},$
得到
$\frac{\partial \mathbf{f}}{\partial \mathbf{x}} = A^T.$

例 2：行列式函数的导数

问题： $\log |X|$ ， $X$ 是 $n\times n$ 矩阵，求 $\nabla_X f$ 和 $\nabla^2_X f$ 。

解：利用上篇中的技术可求得
$\nabla_X f = X^{-1T}.$
为求 $\nabla^2_X f$ ，先求微分：
$d\nabla_X f = -(X^{-1}dXX^{-1})^T,$
再做向量化，利用转置和矩阵乘法的技巧
$\begin{align*} \mathrm{vec}(d\nabla_X f) &= -K_{nn}\mathrm{vec}(X^{-1}dX X^{-1}) \\&= -K_{nn}(X^{-1T}\otimes X^{-1})\mathrm{vec}(dX), \end{align*}$
对照导数与微分的联系，得到
$\nabla^2_X f = -K_{nn}(X^{-1T}\otimes X^{-1}),$
注意它是对称矩阵。在 $X$ 是对称矩阵时，可简化为
$\nabla^2_X f = -X^{-1}\otimes X^{-1}.$

例 3：指数函数的导数

问题： $A\exp(XB)$ ， $A$ 是 $l\times m$ 矩阵， $X$ 是 $m\times n$ 矩阵， $B$ 是 $n\times p$ 矩阵， $\exp$ 为逐元素函数，求 $\frac{\partial F}{\partial X}$ 。

解：先求微分：
$A(\exp(XB)\odot (dXB)),$
再做向量化，利用矩阵乘法的技巧：
$\mathrm{vec}(dF) = (I_p\otimes A)\mathrm{vec}(\exp(XB)\odot (dXB)),$
再利用逐元素乘法的技巧：
$\mathrm{vec}(dF) = (I_p \otimes A) \mathrm{diag}(\exp(XB))\mathrm{vec}(dXB),$
再利用矩阵乘法的技巧：
$\mathrm{vec}(dF) = (I_p\otimes A)\mathrm{diag}(\exp(XB))(B^T\otimes I_m)\mathrm{vec}(dX),$
对照导数与微分的联系得到
$\frac{\partial F}{\partial X} = (B\otimes I_m)\mathrm{diag}(\exp(XB))(I_p\otimes A^T).$

例 4：一元 logistic 回归中的导数

问题： $\mathbf{x}^T \mathbf{w} + \log(1 + \exp(\mathbf{x}^T\mathbf{w}))$ ，求 $\nabla_\mathbf{w} l$ 和 $\nabla^2_\mathbf{w} l$ 。其中 $y$ 是取值 0 或 1 的标量， $\mathbf{x},\mathbf{w}$ 是 $n\times 1$ 列向量。

解：利用上篇中的技术可求得
$\nabla_\mathbf{w} l = \mathbf{x}(\sigma(\mathbf{x}^T\mathbf{w}) - y),$
其中 $\sigma(a) = \frac{\exp(a)}{1+\exp(a)}$ 为 sigmoid 函数。为求 $\nabla^2_\mathbf{w} l$ ，先求微分：
$d\nabla_\mathbf{w} l = \mathbf{x} \sigma'(\mathbf{x}^T\mathbf{w})\mathbf{x}^T d\mathbf{w},$
其中 $\sigma'(a) = \frac{\exp(a)}{(1+\exp(a))^2}$ 为 sigmoid 函数的导数，对照导数与微分的联系，得到
$\nabla^2_\mathbf{w} l = \mathbf{x}\sigma'(\mathbf{x}^T\mathbf{w})\mathbf{x}^T.$

推广：多样本情况下的 logistic 回归

问题：样本 $(\mathbf{x}_1, y_1), \dots, (\mathbf{x}_N,y_N)$ ，
$\sum_{i=1}^N \left(-y_i \mathbf{x}_i^T\mathbf{w} + \log(1+\exp(\mathbf{x_i}^T\mathbf{w}))\right),$
求 $\nabla_\mathbf{w} l$ 和 $\nabla^2_\mathbf{w} l$ 。有两种方法：

解 1：先对每个样本求导，然后相加。

解 2：定义矩阵
$\begin{bmatrix} \mathbf{x}_1^T \\ \vdots \\ \mathbf{x}_N^T \end{bmatrix},$
向量
$\mathbf{y} = \begin{bmatrix} y_1 \\ \vdots \\ y_N \end{bmatrix},$
将 $l$ 写成矩阵形式：
$-\mathbf{y}^T X\mathbf{w} + \mathbf{1}^T\log(\mathbf{1} + \exp(X\mathbf{w})),$

进而可以利用上篇中的技术求得
$\nabla_{\mathbf{w}} l = X^\top\left(\sigma(X\mathbf{w}) - \mathbf{y}\right),$
为求 $\nabla^2_{\mathbf{w}} l$ ，先求微分，再利用逐元素乘法的技巧：
$d\nabla_{\mathbf{w}} l = X^\top\left(\sigma'(X\mathbf{w}) \odot (X d\mathbf{w})\right) = X^\top \text{diag}\left(\sigma'(X\mathbf{w})\right) X d\mathbf{w},$
对照导数与微分的联系，得到
$\nabla^2_{\mathbf{w}} l = X^\top\text{diag}\left(\sigma'(X\mathbf{w})\right) X.$

例 5：多元 logistic 回归中的导数

问题： $-\mathbf{y}^T\log \text{softmax}(W\mathbf{x}) = -\mathbf{y}^TW\mathbf{x} + \log(\mathbf{1}^T\exp(W\mathbf{x}))$ ，求 $\nabla_W l$ 和 $\nabla^2_W l$ 。其中 $\mathbf{y}$ 是除一个元素为 1 外其他元素为 0 的 $m\times 1$ 列向量， $W$ 是 $m\times n$ 矩阵， $\mathbf{x}$ 是 $n\times 1$ 列向量， $l$ 是标量。

解：上篇中已求得
$\nabla_W l = (\text{softmax}(W\mathbf{x})-\mathbf{y})\mathbf{x}^T.$
为求 $\nabla^2_W l$ ，先求微分：定义 $\mathbf{a} = W\mathbf{x}$ ，
$d\nabla_W l = \left(\frac{\exp(\mathbf{a})\odot d\mathbf{a}}{\mathbf{1}^T\exp(\mathbf{a})} - \frac{\exp(\mathbf{a}) (\mathbf{1}^T(\exp(\mathbf{a})\odot d\mathbf{a}))}{(\mathbf{1}^T\exp(\mathbf{a}))^2}\right) \mathbf{x}^T.$
化简得
$d\nabla_W l = \left( \frac{\text{diag}(\exp(\mathbf{a}))}{\mathbf{1}^T\exp(\mathbf{a})} - \frac{\exp(\mathbf{a})\exp(\mathbf{a})^T}{(\mathbf{1}^T\exp(\mathbf{a}))^2} \right)d\mathbf{a} \mathbf{x}^T.$
进一步化简
$d\nabla_W l = \left(\text{diag}(\text{softmax}(\mathbf{a})) - \text{softmax}(\mathbf{a})\text{softmax}(\mathbf{a})^T\right)d\mathbf{a} \mathbf{x}^T.$
定义矩阵
$D(\mathbf{a}) = \text{diag}(\text{softmax}(\mathbf{a})) - \text{softmax}(\mathbf{a})\text{softmax}(\mathbf{a})^T,$
则
$d\nabla_W l = D(\mathbf{a})d\mathbf{a}\mathbf{x}^T = D(W\mathbf{x})dW \mathbf{x}\mathbf{x}^T.$
做向量化并利用矩阵乘法的技巧，得到
$\nabla^2_W l = (\mathbf{x}\mathbf{x}^T) \otimes D(W\mathbf{x}).$

六、总结

我们发展了从整体出发的矩阵求导技术，导数与微分的联系是计算的枢纽。标量对矩阵的导数与微分的联系是
$\mathrm{tr}(\nabla_X^T f dX),$
先对 $f$ 求微分，再利用迹技巧可求得导数。特别地，标量对向量的导数与微分的联系是
$\nabla^T_{\mathbf{x}}f d\mathbf{x}.$
矩阵对矩阵的导数与微分的联系是
$\mathrm{vec}(dF) = \frac{\partial F}{\partial X}^T \mathrm{vec}(dX),$
先对 $F$ 求微分，再利用向量化的技巧可求得导数。特别地，向量对向量的导数与微分的联系是
$d\mathbf{f} = \frac{\partial \mathbf{f}}{\partial \mathbf{x}}^Td\mathbf{x}.$

参考资料：

张贤达. 矩阵分析与应用. 清华大学出版社有限公司, 2004.
Fackler, Paul L. “Notes on matrix calculus.” North Carolina State University (2005).
Petersen, Kaare Brandt, and Michael Syskind Pedersen. “The matrix cookbook.” Technical University of Denmark 7 (2008): 15.
HU, Pili. “Matrix Calculus: Derivation and Simple Application.” (2012).
Magnus, Jan R., and Heinz Neudecker. “Matrix Differential Calculus with Applications in Statistics and Econometrics.” Wiley, 2019.

编辑于 2020-06-28 04:46