矩阵求导 Ref 1

斐夷所非

已于 2025-04-14 19:17:50 修改

阅读量694

点赞数 28

CC 4.0 BY-SA版权

分类专栏： mathematics 文章标签：矩阵

于 2025-04-12 00:42:16 首次发布

本文链接：https://blog.youkuaiyun.com/u013669912/article/details/146126347

mathematics 专栏收录该内容

74 篇文章

订阅专栏

注：本文来自 Dwzb，因 csdn 篇幅合并超限分篇连载，本篇为 Ref 1。

略作重排，如有内容异常，请看原文。

矩阵求导总结（一）

Dwzb 2020-01-12 00:00:00

标量对向量或矩阵求导

基本方法

设 $y$ 是标量， $\mathbf {x}$ 是向量， $\mathbf {A}$ 是矩阵。标量对向量或矩阵求导，即对逐个元素求导。

$\frac {\partial y}{\partial \mathbf {x}}$ 的结果是一个与 $\mathbf {x}$ 维度相同的向量。
$\frac {\partial y}{\partial \mathbf {A}}$ 的结果是一个与 $\mathbf {A}$ 维度相同的矩阵。

实际应用中，一个类似这样的公式 $(\mathbf {y} - \mathbf {X}\beta)^T (\mathbf {y} - \mathbf {X}\beta)$ ，求 $\frac {\partial l}{\partial \beta}$ ，有两种思路：

将矩阵展开，变成标量形式：加各种 $\sum_{i = 1}^{n}$ ，用 $l$ 对每个 $\beta_i$ 求导后，按照求导后应有的维度，把结果拼起来。
- 当 $l$ 形式较简单时适用，复杂形式请用微分法。
微分法：右边套一个迹，等式两端同时取微分，目标是写成这种形式 $\mathrm {d} l = \text {tr}(\mathbf {b}^T \mathrm {d}\beta)$ ，则可得 $\frac {\partial l}{\partial \beta} = \mathbf {b}$ 。
- 如果是标量对矩阵求导也一样，写成这种形式 $\mathrm {d} l = \text {tr}(\mathbf {A}^T \mathrm {d}\mathbf {X})$ ，则 $\frac {\partial l}{\partial \mathbf {X}} = \mathbf {A}$ 。
  
  套迹取微分后的推导，主要用到微分运算法则和迹的性质，二者都会列在下面。其他说明：
  - 右边可以套一个迹，是因为等式左右两边都是标量；取迹的目的是方便右侧变形，而迹保持不变，举例如下。比如最后推出这种形式： $\mathrm {d} l = \text {tr}(\mathbf {b} \mathrm {d}\beta^T)$ ，则 $\frac {\partial l}{\partial \beta} = \mathbf {b}$ 。这是用到了迹内转置、交换位置的性质。
  - 经常等式右侧的 $\mathrm {d}\beta$ 不在最后，要用迹内交换位置的性质，交换位置的原则是保持矩阵相乘有意义，这也是减少计算错误的有效手段。经常是 $\mathrm {d}\beta$ 后面的一整块直接移到最前面。
- 微分 $\mathrm {d}\mathbf {X}$ 与 $\mathbf {X}$ 维度相同，这个性质可以帮助判断是否保持了矩阵相乘有意义。

微分运算法则

常数微分： $\mathrm {d}\mathbf {X} = \mathbf {O}$ ，如果 $\mathbf {X}$ 由常数组成， $\mathbf {O}$ 与 $\mathbf {X}$ 维度相同。
微分加减法： $\mathrm {d}(\mathbf {X} + \mathbf {Y}) = \mathrm {d}\mathbf {X} + \mathrm {d}\mathbf {Y}$ ， $\mathrm {d}(\mathbf {X} - \mathbf {Y}) = \mathrm {d}\mathbf {X} - \mathrm {d}\mathbf {Y}$ 。
微分乘法： $\mathrm {d}(\mathbf {X}\mathbf {Y}) = (\mathrm {d}\mathbf {X})\mathbf {Y} + \mathbf {X}(\mathrm {d}\mathbf {Y})$ 。
微分转置： $\mathrm {d}(\mathbf {X}^T) = (\mathrm {d}\mathbf {X})^T$ 。
微分的迹： $\mathrm {d}\text {tr}(\mathbf {X}) = \text {tr}(\mathrm {d}\mathbf {X})$ 。
微分哈达马乘积： $\mathrm {d}(\mathbf {X} \odot \mathbf {Y}) = \mathbf {X} \odot \mathrm {d}\mathbf {Y} + \mathrm {d}\mathbf {X} \odot \mathbf {Y}$ 。
逐元素函数微分： $\mathrm {d}\sigma (\mathbf {X}) = \sigma'(\mathbf {X}) \odot \mathrm {d}\mathbf {X}$ ，其中 $\sigma$ 是对 $\mathbf {X}$ 中每个元素进行函数变换，结果与 $\mathbf {X}$ 维度相同；求导结果的矩阵每个元素为 $\sigma'(x_{ij})\mathrm {d} x_{ij}$ 。
逆矩阵微分： $\mathrm {d}\mathbf {X}^{-1} = -\mathbf {X}^{-1}\mathrm {d}\mathbf {X} \mathbf {X}^{-1}$ 。此式可通过 $\mathbf {X}\mathbf {X}^{-1} = \mathbf {I}$ 左右两侧求微分推得。
行列式微分： $\mathrm {d}|\mathbf {X}| = |\mathbf {X}|\text {tr}(\mathbf {X}^{-1}\mathrm {d}\mathbf {X})$ ，这里默认 $\mathbf {X}$ 可逆，因为如果不可逆 $|\mathbf {X}|$ 就是 0 了。

更一般的表示是 $\mathrm {d}|\mathbf {X}| = \text {tr}(\mathbf {X}^{\#}\mathrm {d}\mathbf {X})$ ，其中 $\mathbf {X}^{\#}$ 是 $\mathbf {X}$ 的伴随矩阵。

直观理解： $|\mathbf {X}| = \sum_{j = 1}^{n} x_{ij}\mathbf {X}^{\#}_{ji}$ ，这对任意 $i$ 都成立，所以 $|\mathbf {X}|$ 对 $x_{ij}$ 的导数就应该是 $\mathbf {X}^{\#}_{ji}$ ，因此 $\frac {\partial |\mathbf {X}|}{\partial \mathbf {X}} = \mathbf {X}^{\#T}$ ，所以微分形式就是 $\mathrm {d}|\mathbf {X}| = \text {tr}(\mathbf {X}^{\#}\mathrm {d}\mathbf {X})$ 。

注：如果这样写， $n|\mathbf {X}| = \sum_{i = 1}^{n}\sum_{j = 1}^{n} x_{ij}\mathbf {X}^{\#}_{ji}$ ，那岂不是 $\frac {\partial |\mathbf {X}|}{\partial \mathbf {X}} = \frac {1}{n}\mathbf {X}^{\#T}$ ？这个式子不对，因为 $\mathbf {X}^{\#}_{mn}$ 里也会含有一些 $x_{ij}$ 的项，所以没有那么简单（而上面 $\mathbf {X}^{\#}_{ji}$ 中确实不含 $x_{ij}$ 的项）。

迹的性质

标量的迹等于自身： $\text {tr}(a) = a$ 。
转置： $\text {tr}(\mathbf {A}^T) = \text {tr}(\mathbf {A})$ 。
线性： $\text {tr}(\mathbf {A} \pm \mathbf {B}) = \text {tr}(\mathbf {A}) \pm \text {tr}(\mathbf {B})$ 。
交换： $\text {tr}(\mathbf {A}^ T\mathbf {B}) = \text {tr}(\mathbf {B}^T\mathbf {A})$ ，其中 $\mathbf {A}$ 与 $\mathbf {B}$ 维度相同，迹结果等于 $\sum_{i,j} A_{ij} B_{ij}$ 。类似地有： $\text {tr}(\mathbf {A}^T (\mathbf {B} \odot \mathbf {C})) = \text {tr}((\mathbf {A} \odot \mathbf {B})^T\mathbf {C})$ ，其中 $\mathbf {A}, \mathbf {B}, \mathbf {C}$ 维度相同，迹结果为 $\sum_{i,j} A_{ij} B_{ij} C_{ij}$ 。

微分法的背后原理

为什么标量对向量求导，写成 $\mathrm {d} l = \text {tr}(\mathbf {b}^T \mathrm {d}\beta)$ ，则 $\frac {\partial l}{\partial \beta} = \mathbf {b}$ ；标量对矩阵求导，写成 $\mathrm {d} l = \text {tr}(\mathbf {A}^T\mathrm {d}\mathbf {X})$ ，则 $\frac {\partial l}{\partial \mathbf {X}} = \mathbf {A}$ ？

标量对向量求导：等式右侧其实是 $\sum_{i} b_i\mathrm {d}\beta_i$ ，那么 $\frac {\partial l}{\partial \beta_i} = b_i$ ，自然可得 $\frac {\partial l}{\partial \beta} = \mathbf {b}$ 。
标量对矩阵求导同理：等式右侧是 $\sum_{i,j} a_{ij}\mathrm {d} X_{ij}$ ，那么 $\frac {\partial l}{\partial X_{ij}} = a_{ij}$ ，自然可得 $\frac {\partial l}{\partial \mathbf {X}} = \mathbf {A}$ 。

这借鉴了多元情形下的全微分公式，全微分是梯度向量与微分向量的内积 $\mathrm {d} f = \sum_{i}\frac {\partial f}{\partial x_i}\mathrm {d} x_i = \left [\frac {\partial f}{\partial x}\right]^T\mathrm {d} x$ 。

了解这个原理后，我们可以发现写成其他形式也是可以的，比如内积：

标量对向量求导，写成 $\mathrm {d} l = \langle \mathbf {b}, \mathrm {d}\beta \rangle$ ，则 $\frac {\partial l}{\partial \beta} = \mathbf {b}$ 。
标量对矩阵求导，写成 $\mathrm {d} l = \langle \mathbf {A}, \mathrm {d}\mathbf {X} \rangle$ ，则 $\frac {\partial l}{\partial \mathbf {X}} = \mathbf {A}$ 。

注：矩阵的内积是，对应位置相乘，再将所有数相加。内积形式的应用可以参见下一节：哈达马乘积的处理。

哈达马乘积的处理

遇到 $\odot \mathrm {d} y$ 这种情况，还是要努力转化成我们熟知的形式。这里举一个例子，提供三种方法。

题目： $\mathbf {x}^T \exp (\mathbf {y})$ ，求 $\frac {\partial l}{\partial \mathbf {y}}$ 。

1.内积方法： $\mathrm {d} l = \mathbf {x}^T [\exp (\mathbf {y}) \odot \mathrm {d}\mathbf {y}] = \langle \mathbf {x}, \exp (\mathbf {y}) \odot \mathrm {d}\mathbf {y} \rangle = \langle \mathbf {x} \odot \exp (\mathbf {y}), \mathrm {d}\mathbf {y} \rangle$ ，所以 $\frac {\partial l}{\partial \mathbf {y}} = \mathbf {x} \odot \exp (\mathbf {y})$ 。上面最后一个等式是一个性质，也很好理解，只要写成 $\sum_{i} x_{i}\exp (y_{i}) y_{i}$ 即可；当三者都是矩阵时，这条性质也成立。

2.迹的性质：对哈达马乘积，迹也有和上面内积类似的性质：当 $\mathbf {A}, \mathbf {B}, \mathbf {C}$ 同维度时， $\text {tr}((\mathbf {A} \odot \mathbf {B})^T\mathbf {C}) = \text {tr}(\mathbf {A}^T (\mathbf {B} \odot \mathbf {C}))$ 。如果用这条性质来做的话，就可以直接写出 $\mathrm {d} l = \text {tr}([\mathbf {x} \odot \exp (\mathbf {y})]^T \mathrm {d}\mathbf {y})$ 。

3.矩阵相乘：当出现的是向量的哈达马乘积时，还有第三种做法。令 $\mathbf {Z} = \text {diag}(\mathbf {y})$ ，则 $\mathrm {d} l = \mathbf {x}^T [\exp (\mathbf {y}) \odot \mathrm {d}\mathbf {y}] = \mathbf {x}^T \mathbf {Z} \mathrm {d}\mathbf {y}$ ，这就是我们熟知的形式了。

例题

1.标量对向量求导。已知 $\mathbf {x}^T\mathbf {A}\mathbf {x}$ ，求 $\frac {\partial l}{\partial \mathbf {x}}$ 。

解法 1：右侧写成标量形式， $\sum_{i j} x_{i} a_{ij} x_{j}$ 。对向量中元素逐个求导如下：

$\frac {\partial l}{\partial x_{k}} = \sum_{j \neq k} a_{kj} x_{j} + \sum_{i \neq k} x_{i} a_{ik} + 2a_{kk} x_{k} = \sum_{j} a_{kj} x_{j} + \sum_{i} x_{i} a_{ik} = \mathbf {A}_{k,:}\mathbf {x} + \mathbf {x}^T\mathbf {A}_{:,k} = \mathbf {A}_{k,:}\mathbf {x} + \mathbf {A}^T_{k,:}\mathbf {x}$

拼合可得

$\frac {\partial l}{\partial \mathbf {x}} = (\mathbf {A} + \mathbf {A}^T)\mathbf {x}$
解法 2：微分法， $\mathrm {d} l = \mathrm {d}[\text {tr}(\mathbf {x}^T\mathbf {A}\mathbf {x})] = \text {tr}[\mathrm {d}(\mathbf {x}^T\mathbf {A}\mathbf {x})] = \text {tr}[\mathrm {d}(\mathbf {x}^T\mathbf {A})\mathbf {x} + \mathbf {x}^T\mathbf {A} \mathrm {d}\mathbf {x}] = \text {tr}[\mathbf {x}^T\mathbf {A}^T \mathrm {d}\mathbf {x} + \mathbf {x}^T\mathbf {A} \mathrm {d}\mathbf {x}] = \text {tr}[\mathbf {x}^T (\mathbf {A}^T + \mathbf {A})\mathrm {d}\mathbf {x}]$ 。因此 $\frac {\partial l}{\partial \mathbf {x}} = (\mathbf {A} + \mathbf {A}^T)\mathbf {x}$ 。

2.标量对矩阵求导。已知 $\mathbf {a}^T\mathbf {X}\mathbf {b}$ ，求 $\frac {\partial l}{\partial \mathbf {X}}$ 。

解法 1：右侧写成标量形式， $\sum_{ij} a_{i} x_{ij} b_{j}$ 。对向量中元素逐个
求导可得 $\frac {\partial l}{\partial X_{ij}} = a_{i} b_{j}$ 。所以 $\frac {\partial l}{\partial \mathbf {X}} = \mathbf {a}\mathbf {b}^T$ 。
解法 2：微分法， $\mathrm {d} l = \mathrm {d}[\text {tr}(\mathbf {a}^T\mathbf {X}\mathbf {b})] = \text {tr}[\mathrm {d}(\mathbf {a}^T\mathbf {X}\mathbf {b})] = \text {tr}[\mathbf {a}^T\mathrm {d}(\mathbf {X}\mathbf {b})] = \text {tr}[\mathbf {a}^T\mathrm {d}\mathbf {X}\mathbf {b}] = \text {tr}[\mathbf {b}\mathbf {a}^T\mathrm {d}\mathbf {X}]$ 。因此 $\frac {\partial l}{\partial \mathbf {X}} = \mathbf {a}\mathbf {b}^T$ 。

3.多元正态分布 $\Sigma$ 的极大似然估计，需要计算对数似然对 $\Sigma$ 的导数。

$\log|\Sigma| + \frac {1}{N}\sum_{i = 1}^{N}(\mathbf {x}_{i} - \overline {\mathbf {x}})^T\Sigma^{-1}(\mathbf {x}_{i} - \overline {\mathbf {x}})$

使用微分法：

$\begin {aligned} \mathrm {d} l &= \frac {1}{|\Sigma|}\mathrm {d}|\Sigma| + \frac {1}{N}\sum_{i = 1}^{N}(\mathbf {x}_{i} - \overline {\mathbf {x}})^T\mathrm {d}(\Sigma^{-1})(\mathbf {x}_{i} - \overline {\mathbf {x}}) \\ &= \text {tr}(\Sigma^{-1}\mathrm {d}\Sigma) - \frac {1}{N}\sum_{i = 1}^{N}(\mathbf {x}_{i} - \overline {\mathbf {x}})^T\Sigma^{-1}\mathrm {d}\Sigma\Sigma^{-1}(\mathbf {x}_{i} - \overline {\mathbf {x}}) \\ &= \text {tr}(\Sigma^{-1}\mathrm {d}\Sigma) - \frac {1}{N}\sum_{i = 1}^{N}\Sigma^{-1}(\mathbf {x}_{i} - \overline {\mathbf {x}})(\mathbf {x}_{i} - \overline {\mathbf {x}})^T\Sigma^{-1}\mathrm {d}\Sigma \\ &= \text {tr}\left (\left [\Sigma^{-1} - \frac {1}{N}\sum_{i = 1}^{N}\Sigma^{-1}(\mathbf {x}_{i} - \overline {\mathbf {x}})(\mathbf {x}_{i} - \overline {\mathbf {x}})^T\Sigma^{-1}\right]\mathrm {d}\Sigma\right) \\ &= \text {tr}\left (\left [\Sigma^{-1} - \Sigma^{-1} S\Sigma^{-1}\right]\mathrm {d}\Sigma\right) \end {aligned}$

所以

$\frac {\partial l}{\partial \Sigma} = (\Sigma^{-1} - \Sigma^{-1} S\Sigma^{-1})^T$

向量矩阵间求导

机器学习中常见的是标量对向量或矩阵求导，但如果涉及求二阶导，或者使用链式法则，则需要向量对向量求导，或者矩阵对矩阵求导。

向量对向量求导

向量 $\mathbf {y}$ 长度为 $m$ ，向量 $\mathbf {x}$ 长度为 $n$ ， $\frac {\partial \mathbf {y}}{\partial \mathbf {x}}$ 结果有两种写法：

分子布局：得到一个 $\times n$ 的矩阵，一般叫雅克比矩阵。
分母布局：得到一个 $\times m$ 的矩阵，一般叫梯度矩阵。

这两者本质相同，只是写法不同，互为转置。上文标量对向量、矩阵求导中使用的是分母布局，因此下文统一也都用分母布局方式，此时

$\frac {\partial \mathbf {y}}{\partial \mathbf {x}} = \begin {pmatrix} \frac {\partial y_{1}}{\partial x_{1}} & \frac {\partial y_{2}}{\partial x_{1}} & \cdots & \frac {\partial y_{m}}{\partial x_{1}} \\ \frac {\partial y_{1}}{\partial x_{2}} & \frac {\partial y_{2}}{\partial x_{2}} & \cdots & \frac {\partial y_{m}}{\partial x_{2}} \\ \vdots & \vdots & \ddots & \vdots \\ \frac {\partial y_{1}}{\partial x_{n}} & \frac {\partial y_{2}}{\partial x_{n}} & \cdots & \frac {\partial y_{m}}{\partial x_{n}} \end {pmatrix}.$

向量对向量求导，只要写成这种形式 $\mathrm {d}\mathbf {y} = \left [\frac {\partial \mathbf {y}}{\partial \mathbf {x}}\right]^T \mathrm {d}\mathbf {x}$ ，这与之前标量求导相比，只是少了一个迹。

矩阵对矩阵求导

矩阵 $\mathbf {Y}_{p \times q}$ 对矩阵 $\mathbf {X}_{m \times n}$ 求导，需要产生出 $pq \times mn$ 个值，为了不产生太高维的数组，我们可以将 $\mathbf {X}, \mathbf {Y}$ 矩阵都拉成向量，把各列堆起来即可，如下所示：

$\text {vec}(\mathbf {X}) = [X_{11}, \ldots, X_{m1}, X_{12}, \ldots, X_{m2}, \ldots, X_{1n}, \ldots, X_{mn}]^T \quad (mn \times 1)$

则矩阵对矩阵求导，可转化为向量对向量求导， $\frac {\partial \mathbf {Y}}{\partial \mathbf {X}} = \frac {\partial \text {vec}(\mathbf {Y})}{\partial \text {vec}(\mathbf {X})}$ (维度为 $mn \times pq$ )，导数与微分的关系如下：

$\text {vec}(\mathrm {d}\mathbf {Y}) = \left [\frac {\partial \mathbf {Y}}{\partial \mathbf {X}}\right]^T \text {vec}(\mathrm {d}\mathbf {X})$

所以矩阵对矩阵求导的步骤为：先两侧取微分，然后两侧取 vec，再将 $\text {vec}(\mathrm {d}\mathbf {X})$ 放到最右边即可。这个过程需要用到向量化的性质，以及 Kronecker 积和交换矩阵相关的恒等式。

向量化

线性： $\text {vec}(\mathbf {A} + \mathbf {B}) = \text {vec}(\mathbf {A}) + \text {vec}(\mathbf {B})$ 。
矩阵乘法： $\text {vec}(\mathbf {A}\mathbf {X}\mathbf {B}) = (\mathbf {B}^T \otimes \mathbf {A})\text {vec}(\mathbf {X})$ ， $\text {vec}(\mathbf {A}\mathbf {X}) = \text {vec}(\mathbf {A}\mathbf {X}\mathbf {I}) = (\mathbf {I} \otimes \mathbf {A})\text {vec}(\mathbf {X})$ ， $\otimes$ 表示 Kronecker 积， $\mathbf {A}_{m \times n} \otimes \mathbf {B}_{p \times q} = [\mathbf {A}_{ij}\mathbf {B}]_{mp \times nq}$ 。
转置： $\text {vec}(\mathbf {A}^T) = \mathbf {K}_{mn}\text {vec} (\mathbf {A}_{m \times n})$ ，其中 $\mathbf {K}_{mn}$ 是交换矩阵，维度为 $mn \times mn$ ，将按列优先的向量化变成按行优先的向量化。
逐元素乘法： $\text {vec}(\mathbf {A} \odot \mathbf {X}) = \text {diag}(\mathbf {A})\text {vec}(\mathbf {X})$ ，其中 $\text {diag}(\mathbf {A})$ 维度为 $mn \times mn$ ，是 $\mathbf {A}$ 中元素按列优先排成的对角阵。

Kronecker 积和交换矩阵相关的恒等式

$(\mathbf {A} \otimes \mathbf {B})^T = \mathbf {A}^T \otimes \mathbf {B}^T$ 。
$\text {vec}(\mathbf {ab}^T) = \mathbf {b} \otimes \mathbf {a}$ 。
$(\mathbf {A} \otimes \mathbf {B})(\mathbf {C} \otimes \mathbf {D}) = (\mathbf {AC}) \otimes (\mathbf {BD})$ 。
$\mathbf {K}_{mn} = \mathbf {K}^T_{nm}$ ， $\mathbf {K}_{mn}\mathbf {K}_{nm} = \mathbf {I}$ 。
$\mathbf {K}_{pm}(\mathbf {A} \otimes \mathbf {B})\mathbf {K}_{nq} = \mathbf {B} \otimes \mathbf {A}$ ，其中 $\mathbf {A}$ 的维度为 $\times n$ ， $\mathbf {B}$ 的维度是 $\times q$ 。

向量对矩阵求导，或者矩阵对向量求导，都是按照矩阵对矩阵求导的方式来做，只不过向量取 vec 是它本身而已。

例题

1.向量对向量求导。 $\mathbf {y} = \mathbf {A}\mathbf {x}$ ，求 $\frac {\partial \mathbf {y}}{\partial \mathbf {x}}$ 。

解： $\mathrm {d}\mathbf {y} = \mathbf {A}\mathrm {d}\mathbf {x}$ ，所以 $\frac {\partial \mathbf {y}}{\partial \mathbf {x}} = \mathbf {A}^T$ 。

2.矩阵对矩阵求导。 $\mathbf {Y} = \mathbf {A}\mathbf {X}$ ，求 $\frac {\partial \mathbf {Y}}{\partial \mathbf {X}}$ 。

解： $\mathrm {d}\mathbf {Y} = \mathbf {A}\mathrm {d}\mathbf {X}$ ，向量化如下：

$\text {vec}(\mathrm {d}\mathbf {Y}) = \text {vec}(\mathbf {A}\mathrm {d}\mathbf {X}) = (\mathbf {I} \otimes \mathbf {A})\text {vec}(\mathrm {d}\mathbf {X})$

所以 $\frac {\partial \mathbf {Y}}{\partial \mathbf {X}} = \mathbf {I} \otimes \mathbf {A}^T$ 。

3.二阶导。 $\log|\mathbf {X}|$ ， $\mathbf {X}$ 维度为 $\times n$ ，求 $\nabla_{\mathbf {X}} f$ 和 $\nabla^2_{\mathbf {X}} f$ 。

解：易知 $\nabla_{\mathbf {X}} f = \mathbf {X}^{-1T}$ ，等式两端同时取微分并向量化可得：

$\begin {aligned} \text {vec}(\mathrm {d}\nabla_{\mathbf {X}} f) &= \text {vec}(\mathrm {d}\mathbf {X}^{-1T}) \\ &= -\text {vec}([\mathbf {X}^{-1}\mathrm {d}\mathbf {X} \mathbf {X}^{-1}]^T) \\ &= -\mathbf {K}_{nn}\text {vec}(\mathbf {X}^{-1}\mathrm {d}\mathbf {X} \mathbf {X}^{-1}) \\ &= -\mathbf {K}_{nn}(\mathbf {X}^{-1T} \otimes \mathbf {X}^{-1})\text {vec}(\mathrm {d}\mathbf {X}) \end {aligned}$

因此 $\nabla^2_{\mathbf {X}} f = -\mathbf {K}_{nn}(\mathbf {X}^{-1T} \otimes \mathbf {X}^{-1})$ ，这是个对称矩阵。当 $\mathbf {X}$ 是对称矩阵时， $\nabla^2_{\mathbf {X}} f = \mathbf {X}^{-1} \otimes \mathbf {X}^{-1}$ 。

4.逐元素函数。 $\mathbf {F} = \mathbf {A}\exp (\mathbf {X}\mathbf {B})$ ，各矩阵维度分别为 $\mathbf {A}_{l \times m}$ ， $\mathbf {X}_{m \times n}$ ， $\mathbf {B}_{n \times p}$ ，求 $\frac {\partial \mathbf {F}}{\partial \mathbf {X}}$ 。

解：等式两端同时取微分并向量化可得：

$\begin {aligned} \text {vec}(\mathrm {d}\mathbf {F}) &= \text {vec}(\mathrm {d}\mathbf {A}\exp (\mathbf {X}\mathbf {B})) \\ &= \text {vec}(\mathbf {A}[\exp (\mathbf {X}\mathbf {B}) \odot \mathrm {d}(\mathbf {X}\mathbf {B})]) \\ &= (\mathbf {I}_p \otimes \mathbf {A})\text {vec}([\exp (\mathbf {X}\mathbf {B}) \odot \mathrm {d}(\mathbf {X}\mathbf {B})]) \\ &= (\mathbf {I}_p \otimes \mathbf {A})\text {diag}(\exp (\mathbf {X}\mathbf {B}))\text {vec}(\mathrm {d}(\mathbf {X}\mathbf {B})) \\ &= (\mathbf {I}_p \otimes \mathbf {A})\text {diag}(\exp (\mathbf {X}\mathbf {B}))(\mathbf {B}^T \otimes \mathbf {I}_m)\text {vec}(\mathrm {d}\mathbf {X}) \end {aligned}$

因此

$\frac {\partial \mathbf {F}}{\partial \mathbf {X}} = (\mathbf {B} \otimes \mathbf {I}_m)\text {diag}(\exp (\mathbf {X}\mathbf {B}))(\mathbf {I}_p \otimes \mathbf {A}^T)$