矩阵求导 Ref 2

原创已于 2025-04-14 20:26:05 修改 · 829 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#矩阵

于 2025-04-12 00:43:12 首次发布

mathematics 专栏收录该内容

191 篇文章

订阅专栏

注：本文来自 Dwzb，因 csdn 篇幅合并超限分篇连载，本篇为 Ref 2。

略作重排，如有内容异常，请看原文。

矩阵求导总结（二）

Dwzb 2020-01-13 00:00:00

本文承接上一篇。

链式法则

当目标函数具有层级结构时，链式法则可能较为适用。例如，对于目标函数 $(\mathbf {Y})$ ，其中 $\mathbf {Y} = g (\mathbf {X})$ ，可以分别求出 $\frac {\partial l}{\partial \mathbf {Y}}$ 和 $\frac {\partial \mathbf {Y}}{\partial \mathbf {X}}$ ，再通过某种方式连接。然而，不推荐使用链式法则，原因如下：

计算 $\frac {\partial \mathbf {Y}}{\partial \mathbf {X}}$ 时，可能涉及矩阵对矩阵求导或向量对向量求导，这往往会增加问题的复杂性。
链式法则公式受求导布局的影响，容易记错。
即使存在多层结构，也可以不使用链式法则完成求导，具体方法将在例题中展示。

链式法则介绍

本节介绍不同情况下的链式法则。

1.向量对向量求导：假设三个向量存在依赖关系 $\mathbf {x} \to \mathbf {y} \to \mathbf {z}$ ，其长度分别为 $a$ 、 $b$ 、 $c$ ，则链式法则如下：

分子布局：
$\frac {\partial \mathbf {z}}{\partial \mathbf {x}} = \frac {\partial \mathbf {z}}{\partial \mathbf {y}} \frac {\partial \mathbf {y}}{\partial \mathbf {x}}$
注意维度关系： $\times a) = (c \times b) \times (b \times a)$ 。
分母布局：
$\frac {\partial \mathbf {z}}{\partial \mathbf {x}} = \frac {\partial \mathbf {y}}{\partial \mathbf {x}} \frac {\partial \mathbf {z}}{\partial \mathbf {y}}$
注意维度关系： $\times c) = (a \times b) \times (b \times c)$ 。

这两个公式仅适用于三个变量均为向量的情况。可以发现，两种布局方式的公式不同。分子布局形式更符合我们对链式法则的认知，但兼容性较差。例如，当 $\mathbf {z}$ 退化为标量时，标量对向量求导通常采用分母布局，而向量对向量求导则采用分子布局。布局方式的混用不仅会导致混乱，还会改变链式法则的公式，具体可见下一部分。

2.标量对向量求导：

分子布局：
$\frac {\partial z}{\partial \mathbf {x}} = \left (\frac {\partial \mathbf {y}}{\partial \mathbf {x}}\right)^T \frac {\partial z}{\partial \mathbf {y}}$
注意维度关系： $\times 1) = (a \times b) \times (b \times 1)$ 。
分母布局：
$\frac {\partial z}{\partial \mathbf {x}} = \frac {\partial \mathbf {y}}{\partial \mathbf {x}} \frac {\partial z}{\partial \mathbf {y}}$
注意维度关系： $\times 1) = (a \times b) \times (b \times 1)$ 。

可以看到，使用分母布局时，公式较为统一，但顺序与我们对链式法则公式的认知不符，难以记忆，大致是从右往左写，顺序完全相反。

如果存在更多变量，如 $\mathbf {y}_1 \to \mathbf {y}_2 \to \cdots \to \mathbf {y}_n \to z$ ，则分母布局的链式法则公式如下：
$\frac {\partial z}{\partial \mathbf {y}_1} = \frac {\partial \mathbf {y}_2}{\partial \mathbf {y}_1} \frac {\partial \mathbf {y}_3}{\partial \mathbf {y}_2} \cdots \frac {\partial \mathbf {y}_n}{\partial \mathbf {y}_{n - 1}} \frac {\partial z}{\partial \mathbf {y}_n}$

3.标量对矩阵求导：由于涉及向量化操作，改变了矩阵的结构，因此不太方便直接写出链式法则。假设依赖关系为 $\mathbf {X} \to \mathbf {Y} \to z$ ，两个矩阵的维度分别为 $\times n$ 和 $\times q$ ，那么导数的维度如下（这里仅考虑分母布局）：
$\begin {align*} \frac {\partial z}{\partial \mathbf {X}} & : \quad m \times n \\ \frac {\partial z}{\partial \mathbf {Y}} & : \quad p \times q \\ \frac {\partial \mathbf {Y}}{\partial \mathbf {X}} & : \quad mn \times pq \\ \end {align*}$

从矩阵维度来看，三者关系不会是
$\frac {\partial z}{\partial \mathbf {X}} = \frac {\partial \mathbf {Y}}{\partial \mathbf {X}} \frac {\partial z}{\partial \mathbf {Y}}$
而可能是
$\text {vec}\left (\frac {\partial z}{\partial \mathbf {X}}\right) = \frac {\partial \mathbf {Y}}{\partial \mathbf {X}} \text {vec}\left (\frac {\partial z}{\partial \mathbf {Y}}\right)$
虽然未查到相关资料证实，但经过几个例子的验证，该式是正确的。从下面的例题中也可以看出，即使该式成立，其计算过程也过于繁琐。

4.总结：不推荐使用链式法则。如果必须使用，则仅推荐公式（1）的用法，即使用分母布局且仅涉及向量，但该方法的适用范围过窄。下面通过两个例题展示推荐的求导方法。

例题

1.标量对向量求导：已知 $\mathbf {z}^T \mathbf {z}$ ， $\mathbf {z} = \mathbf {A} \mathbf {x}$ ，求 $\frac {\partial l}{\partial \mathbf {x}}$ 。

使用链式法则：由于
$\frac {\partial l}{\partial \mathbf {x}} = \frac {\partial \mathbf {z}}{\partial \mathbf {x}} \frac {\partial l}{\partial \mathbf {z}}$
因此，需要分别求出 $\frac {\partial \mathbf {z}}{\partial \mathbf {x}}$ 和 $\frac {\partial l}{\partial \mathbf {z}}$ 。

首先，对 $l$ 进行微分：
$\mathrm {d} l = \text {tr}[\mathrm {d}(\mathbf {z}^T \mathbf {z})] = \text {tr}[\mathrm {d}\mathbf {z}^T \mathbf {z} + \mathbf {z}^T \mathrm {d}\mathbf {z}] = \text {tr}[2\mathbf {z}^T \mathrm {d}\mathbf {z}]$

接着，计算 $\mathrm {d}\mathbf {z}$ ：
$\mathrm {d}\mathbf {z} = \mathrm {d}(\mathbf {A} \mathbf {x}) = \mathbf {A} \mathrm {d}\mathbf {x}$

因此， $\frac {\partial l}{\partial \mathbf {z}} = 2\mathbf {z}$ ， $\frac {\partial \mathbf {z}}{\partial \mathbf {x}} = \mathbf {A}^T$ 。

最终， $\frac {\partial l}{\partial \mathbf {x}} = \frac {\partial \mathbf {z}}{\partial \mathbf {x}} \frac {\partial l}{\partial \mathbf {z}} = 2\mathbf {A}^T \mathbf {z} = 2\mathbf {A}^T \mathbf {A} \mathbf {x}$ 。

只算微分法（推荐）：首先对 $l$ 进行微分：
$\mathrm {d} l = \text {tr}[\mathrm {d}(\mathbf {z}^T \mathbf {z})] = \text {tr}[\mathrm {d}\mathbf {z}^T \mathbf {z} + \mathbf {z}^T \mathrm {d}\mathbf {z}] = \text {tr}[2\mathbf {z}^T \mathrm {d}\mathbf {z}]$

发现式子中带有 $\mathrm {d}\mathbf {z}$ ，于是计算 $\mathrm {d}\mathbf {z}$ ：
$\mathrm {d}\mathbf {z} = \mathrm {d}(\mathbf {A} \mathbf {x}) = \mathbf {A} \mathrm {d}\mathbf {x}$

将 $\mathrm {d}\mathbf {z}$ 代入上式可得：
$\mathrm {d} l = \text {tr}[2\mathbf {z}^T \mathrm {d}\mathbf {z}] = \text {tr}[2\mathbf {z}^T \mathbf {A} \mathrm {d}\mathbf {x}] = \text {tr}[2\mathbf {A}^T \mathbf {z} \mathrm {d}\mathbf {x}]$

因此，
$\frac {\partial l}{\partial \mathbf {x}} = 2\mathbf {A}^T \mathbf {z} = 2\mathbf {A}^T \mathbf {A} \mathbf {x}$

总结：对比两种方法，计算内容基本相同，都需要对给定的两个式子取微分，差别在于第二种方法取完微分后直接代入使用，而不是求出中间步骤的导数。这种方法无需额外记忆公式，也不会增加计算量。在 “综合例题 - 神经网络” 一节中，可以看到这种方法在复杂案例中的应用。

2.标量对矩阵求导：已知 $\mathbf {z}^T \mathbf {z}$ ， $\mathbf {z} = \mathbf {X} \beta$ ，求 $\frac {\partial l}{\partial \mathbf {X}}$ 。

使用链式法则：由于
$\mathrm {d} l = \mathrm {tr}[\mathrm {d}(\mathbf {z}^T \mathbf {z})] = \mathrm {tr}[\mathrm {d}\mathbf {z}^T \mathbf {z} + \mathbf {z}^T \mathrm {d}\mathbf {z}] = \mathrm {tr}[2\mathbf {z}^T \mathrm {d}\mathbf {z}]$
$\mathrm {d}\mathbf {z} = \mathrm {d}(\mathbf {X} \beta) = \mathrm {d}\mathbf {X} \beta$

因此，
$\frac {\partial l}{\partial \mathbf {z}} = 2\mathbf {z}, \quad \frac {\partial \mathbf {z}}{\partial \mathbf {X}} = \beta \otimes I_n$

列出各个矩阵的维度如下：
$\mathbf {X}: n \times p, \quad \beta: p \times 1, \quad \mathbf {z}: n \times 1$
$\frac {\partial l}{\partial \mathbf {z}}: n \times 1, \quad \frac {\partial \mathbf {z}}{\partial \mathbf {X}}: np \times n$

则
$\frac {\partial l}{\partial \mathbf {X}} = \frac {\partial \mathbf {z}}{\partial \mathbf {X}} \frac {\partial l}{\partial \mathbf {z}} = 2 [\beta \otimes I_n] \mathbf {z} \quad \left (\frac {\partial l}{\partial \mathbf {X}}: np \times 1\right)$

该结果进行向量化逆操作后可得：
$\frac {\partial l}{\partial \mathbf {X}} = 2\mathbf {z} \beta^T = 2\mathbf {X} \beta \beta^T \quad \left (\frac {\partial l}{\partial \mathbf {X}}: n \times p\right)$

注：可以看到这种方法比较麻烦，需要对矩阵的结构进行各种调整。这里 $\mathbf {z}$ 是向量还好，如果 $\mathbf {Z}$ 是矩阵，两个导数都不能直接相乘，例如 $\mathbf {Z} = f (\mathbf {Y})$ ， $\mathbf {Y} = \mathbf {A} \mathbf {X} + \mathbf {B}$ 。这里多说一句，对于这种特定关系，有 $\frac {\partial \mathbf {Z}}{\partial \mathbf {X}} = \mathbf {A}^T \frac {\partial \mathbf {Z}}{\partial \mathbf {Y}}$ 。这个结果可以用上面的链式法则推导（但很繁琐），也可以用下面的只算微分方法非常容易地得到。因此，掌握下面这种方法，无需记忆这种特定关系。

只算微分法（推荐）：首先对 $l$ 进行微分：
$\mathrm {d} l = \text {tr}[\mathrm {d}(\mathbf {z}^T \mathbf {z})] = \text {tr}[\mathrm {d}\mathbf {z}^T \mathbf {z} + \mathbf {z}^T \mathrm {d}\mathbf {z}] = \text {tr}[2\mathbf {z}^T \mathrm {d}\mathbf {z}]$

然后计算 $\mathrm {d}\mathbf {z}$ ：
$\mathrm {d}\mathbf {z} = \mathrm {d}(\mathbf {X} \beta) = \mathrm {d}\mathbf {X} \beta$

将微分结果代入上式可得：
$\mathrm {d} l = \text {tr}[2\mathbf {z}^T \mathrm {d}\mathbf {z}] = \text {tr}[2\mathbf {z}^T \mathrm {d}\mathbf {X} \beta] = \text {tr}[2\beta \mathbf {z}^T \mathrm {d}\mathbf {X}]$

因此，
$\frac {\partial l}{\partial \mathbf {X}} = 2\mathbf {z} \beta^T = 2\mathbf {X} \beta \beta^T$

综合例题

Logistic 二分类

对数似然函数如下：
$\begin {align*} l &= \sum_{i = 1}^{n} y_i \log p_i + (1 - y_i) \log (1 - p_i) \\ &= \sum_{i = 1}^{n} y_i \log \frac {e^{\mathbf {x}_i^T \beta}}{1 + e^{\mathbf {x}_i^T \beta}} + (1 - y_i) \log \frac {1}{1 + e^{\mathbf {x}_i^T \beta}} \\ &= \sum_{i = 1}^{n} y_i (\mathbf {x}_i^T \beta - \log (1 + \exp (\mathbf {x}_i^T \beta))) \\ &= \mathbf {y}^T \mathbf {X} \beta - \mathbf {1}^T \log (1 + \exp (\mathbf {X} \beta)) \end {align*}$

最后一步整理成了矩阵形式，去掉了前面的求和符号。其实也可以带着求和符号算导数，最后再将导数整理成矩阵形式。整理成矩阵的技巧是关注目标的维度以及各个矩阵向量的维度。微分如下：
$\begin {align*} \mathrm {d} l &= \text {tr}\left [\mathbf {y}^T \mathbf {X} \mathrm {d}\beta - \mathbf {1}^T \left (\frac {1}{1 + \exp (\mathbf {X} \beta)} \odot \mathrm {d}\exp (\mathbf {X} \beta)\right)\right] \\ &= \text {tr}\left [\mathbf {y}^T \mathbf {X} \mathrm {d}\beta - \left (\mathbf {1}^T \odot \frac {1}{1 + \exp (\mathbf {X} \beta)}\right)^T \mathrm {d}\exp (\mathbf {X} \beta)\right] \\ &= \text {tr}\left [\mathbf {y}^T \mathbf {X} \mathrm {d}\beta - \left (\frac {1}{1 + \exp (\mathbf {X} \beta)}\right)^T \left (\exp (\mathbf {X} \beta) \odot \mathbf {X} \mathrm {d}\beta\right)\right] \\ &= \text {tr}\left [\mathbf {y}^T \mathbf {X} \mathrm {d}\beta - \left [\left (\frac {1}{1 + \exp (\mathbf {X} \beta)}\right) \odot \exp (\mathbf {X} \beta)\right]^T \mathbf {X} \mathrm {d}\beta\right] \\ &= \text {tr}\left [\mathbf {y}^T \mathbf {X} \mathrm {d}\beta - \sigma (\mathbf {X} \beta)^T \mathbf {X} \mathrm {d}\beta\right] \\ &= \text {tr}\left [(\mathbf {y}^T - \sigma (\mathbf {X} \beta)^T) \mathbf {X} \mathrm {d}\beta\right] \end {align*}$

因此，
$\nabla_{\beta} l = \mathbf {X}^T (\mathbf {y} - \sigma (\mathbf {X} \beta))$
其中 $\sigma (\mathbf {x}) = \frac {e^{\mathbf {x}}}{1 + e^{\mathbf {x}}}$ 。

求 $\nabla^2_{\beta} l$ 的过程是向量对向量求导，两端同时取微分：
$\begin {align*} \mathrm {d}\nabla_{\beta} l &= -\mathbf {X}^T \mathrm {d}\sigma (\mathbf {X} \beta) \\ &= -\mathbf {X}^T [\sigma'(\mathbf {X} \beta) \odot \mathbf {X} \mathrm {d}\beta] \\ &= -\mathbf {X}^T \text {diag}[\sigma'(\mathbf {X} \beta)] \mathbf {X} \mathrm {d}\beta \end {align*}$

因此，
$\nabla^2_{\beta} l = -\mathbf {X}^T \text {diag}[\sigma'(\mathbf {X} \beta)] \mathbf {X}$

如果保留样本求和符号，可以写成
$\nabla^2_{\beta} l = \frac {\partial^2 l (\beta)}{\partial \beta \partial \beta^T} = -\sum_{i = 1}^{n} \mathbf {x}_i \mathbf {x}_i^T \sigma (\mathbf {x}_i^T \beta)(1 - \sigma (\mathbf {x}_i^T \beta))$

Softmax 多分类

首先定义变量维度：
$\mathbf {Y}: n \times c, \quad \mathbf {y}_i: c \times 1$
$\mathbf {X}: n \times d, \quad \mathbf {x}_i: d \times 1$
$\mathbf {W}: d \times c$
$\mathbf {1}_c: c \times 1, \quad \mathbf {1}_n: n \times 1$

对数似然函数如下：
$\begin {align*} l &= \sum_{i=1}^n \mathbf {y}_i^T \log \frac {\exp (\mathbf {W}^T \mathbf {x}_i)}{\mathbf {1}_c^T \exp (\mathbf {W}^T \mathbf {x}_i)} \\ &= \sum_{i=1}^n \mathbf {y}_i^T \mathbf {W}^T \mathbf {x}_i - \mathbf {y}_i^T \mathbf {1}_c \log (\mathbf {1}_c^T \exp (\mathbf {W}^T \mathbf {x}_i)) \\ &= \sum_{i=1}^n \mathbf {y}_i^T \mathbf {W}^T \mathbf {x}_i - \log (\mathbf {1}_c^T \exp (\mathbf {W}^T \mathbf {x}_i)) \\ &= \mathrm {tr}(\mathbf {X} \mathbf {W} \mathbf {Y}^T) - \mathbf {1}_n^T \log [\exp (\mathbf {X} \mathbf {W}) \mathbf {1}_c] \end {align*}$

最后一步整理成了矩阵形式，去掉了前面的求和符号。其实也可以带着求和符号算导数，最后再将导数整理成矩阵形式。整理成矩阵的技巧是关注目标的维度以及各个矩阵向量的维度。微分如下：
$\begin {align*} \mathrm {d} l &= \mathrm {tr}(\mathbf {X} \mathrm {d}\mathbf {W} \mathbf {Y}^T) - \mathrm {tr}\left (\mathbf {1}_n^T \left [\frac {1}{\exp (\mathbf {X} \mathbf {W}) \mathbf {1}_c} \odot \mathrm {d}\exp (\mathbf {X} \mathbf {W}) \mathbf {1}_c\right]\right) \\ &= \mathrm {tr}(\mathbf {Y}^T \mathbf {X} \mathrm {d}\mathbf {W}) - \mathrm {tr}\left (\left [\mathbf {1}_n \odot \frac {1}{\exp (\mathbf {X} \mathbf {W}) \mathbf {1}_c}\right]^T \mathrm {d}\exp (\mathbf {X} \mathbf {W}) \mathbf {1}_c\right) \\ &= \mathrm {tr}(\mathbf {Y}^T \mathbf {X} \mathrm {d}\mathbf {W}) - \mathrm {tr}\left (\left [\frac {1}{\exp (\mathbf {X} \mathbf {W}) \mathbf {1}_c}\right]^T \left [\exp (\mathbf {X} \mathbf {W}) \odot \mathbf {X} \mathrm {d}\mathbf {W}\right] \mathbf {1}_c\right) \\ &= \mathrm {tr}(\mathbf {Y}^T \mathbf {X} \mathrm {d}\mathbf {W}) - \mathrm {tr}\left (\left [\frac {1}{\exp (\mathbf {X} \mathbf {W}) \mathbf {1}_c} \mathbf {1}_c^T\right]^T \left [\exp (\mathbf {X} \mathbf {W}) \odot \mathbf {X} \mathrm {d}\mathbf {W}\right]\right) \\ &= \mathrm {tr}(\mathbf {Y}^T \mathbf {X} \mathrm {d}\mathbf {W}) - \mathrm {tr}\left (\left [\frac {1}{\exp (\mathbf {X} \mathbf {W}) \mathbf {1}_c} \mathbf {1}_c^T \odot \exp (\mathbf {X} \mathbf {W})\right]^T \mathbf {X} \mathrm {d}\mathbf {W}\right) \\ &= \mathrm {tr}(\mathbf {Y}^T \mathbf {X} \mathrm {d}\mathbf {W}) - \mathrm {tr}(\mathrm {Softmax}(\mathbf {X} \mathbf {W})^T \mathbf {X} \mathrm {d}\mathbf {W}) \\ &= \mathrm {tr}((\mathbf {Y}^T - \mathrm {Softmax}(\mathbf {X} \mathbf {W})^T) \mathbf {X} \mathrm {d}\mathbf {W}) \end {align*}$

因此，
$\nabla_{\mathbf {W}} l = \mathbf {X}^T (\mathbf {Y} - \mathrm {Softmax}(\mathbf {X} \mathbf {W}))$
其中 $\mathrm {Softmax}(\mathbf {X} \mathbf {W})$ 是一个 $\times c$ 的矩阵，表示对 $\mathbf {X} \mathbf {W}$ 的每行都计算
$\mathrm {softmax}(\mathbf {x}) = \frac {\exp (\mathbf {x})}{\mathbf {1}^T \exp (\mathbf {x})}, \qquad (\mathbf {x}: c \times 1)$

如果保留样本求和符号，一阶导可以写成
$\nabla_{\mathbf {W}} l = \sum_{i = 1}^{n} \mathbf {x}_i (\mathbf {y}_i - \mathrm {softmax}(\mathbf {W}^T \mathbf {x}_i))^T$

求 $\nabla^2_{\mathbf {W}} l$ 的过程是向量对向量求导，两端同时取微分：
$\begin {align*} \mathrm {d}\nabla_{\mathbf {W}} l &= -\sum_{i = 1}^{n} \mathbf {x}_i \mathrm {d}[\mathrm {softmax}(\mathbf {W}^T \mathbf {x}_i))^T] \\ &= -\sum_{i = 1}^{n} \mathbf {x}_i \mathrm {d}\left [\frac {\exp (\mathbf {W}^T \mathbf {x}_i)}{\mathbf {1}_c^T \exp (\mathbf {W}^T \mathbf {x}_i)}\right]^T \\ &= -\sum_{i = 1}^{n} \mathbf {x}_i \left [\frac {\exp (\mathbf {W}^T \mathbf {x}_i) \odot \mathrm {d}\mathbf {W}^T \mathbf {x}_i}{\mathbf {1}_c^T \exp (\mathbf {W}^T \mathbf {x}_i)} - \frac {\exp (\mathbf {W}^T \mathbf {x}_i)(\exp (\mathbf {W}^T \mathbf {x}_i)^T \mathrm {d}\mathbf {W}^T \mathbf {x}_i)}{[\mathbf {1}_c^T \exp (\mathbf {W}^T \mathbf {x}_i)]^2}\right]^T \\ &= -\sum_{i = 1}^{n} \mathbf {x}_i \left [\frac {\mathrm {diag}[\exp (\mathbf {W}^T \mathbf {x}_i)] \mathrm {d}\mathbf {W}^T \mathbf {x}_i}{\mathbf {1}_c^T \exp (\mathbf {W}^T \mathbf {x}_i)} - \frac {\exp (\mathbf {W}^T \mathbf {x}_i)(\exp (\mathbf {W}^T \mathbf {x}_i)^T \mathrm {d}\mathbf {W}^T \mathbf {x}_i)}{[\mathbf {1}_c^T \exp (\mathbf {W}^T \mathbf {x}_i)]^2}\right]^T \\ &= -\sum_{i = 1}^{n} \mathbf {x}_i \mathbf {x}_i^T \mathrm {d}\mathbf {W} \left [\mathrm {diag}(\mathrm {softmax}(\mathbf {W}^T \mathbf {x}_i)) - \mathrm {softmax}(\mathbf {W}^T \mathbf {x}_i) \mathrm {softmax}(\mathbf {W}^T \mathbf {x}_i)^T\right]^T \\ &= -\sum_{i = 1}^{n} \mathbf {x}_i \mathbf {x}_i^T \mathrm {d}\mathbf {W} \mathbf {D}(\mathbf {W}^T \mathbf {x}_i)^T \end {align*}$

其中
$\mathbf {D}(\mathbf {a}) = \mathrm {diag}(\mathrm {softmax}(\mathbf {a})) - \mathrm {softmax}(\mathbf {a}) \mathrm {softmax}(\mathbf {a})^T$

接下来进行向量化可得：
$\text {vec}(\mathrm {d}\nabla_{\mathbf {W}} l) = -\sum_{i = 1}^{n} (\mathbf {D}(\mathbf {W}^T \mathbf {x}_i) \otimes \mathbf {x}_i \mathbf {x}_i^T) \text {vec}(\mathrm {d}\mathbf {W})$

因此，
$\nabla^2_{\mathbf {W}} l = -\sum_{i = 1}^{n} \mathbf {D}(\mathbf {W}^T \mathbf {x}_i)^T \otimes \mathbf {x}_i \mathbf {x}_i^T$

神经网络

首先定义变量维度：
$\begin {align*} \mathbf {Y}: n \times c, \quad \mathbf {y}_i: c \times 1 \\ \mathbf {X}: n \times p, \quad \mathbf {x}_i: p \times 1 \\ \mathbf {W}_1: p \times d, \quad \mathbf {b}_1: d \times 1 \\ \mathbf {W}_2: d \times c, \quad \mathbf {b}_2: c \times 1 \\ \mathbf {1}_c: c \times 1, \quad \mathbf {1}_n: n \times 1 \end {align*}$

对数似然函数如下：
$\sum_{i = 1}^{n} \mathbf {y}_i^T \log \mathrm {softmax}(\mathbf {W}_2^T \sigma (\mathbf {W}_1^T \mathbf {x}_i + \mathbf {b}_1) + \mathbf {b}_2)$

其中 $\mathrm {softmax}$ 函数定义如下：
$\mathrm {softmax}(\mathbf {x}) = \frac {\exp (\mathbf {x})}{\mathbf {1}^T \exp (\mathbf {x})}, \qquad (\mathbf {x}: c \times 1)$

我们可以将似然函数拆解成多个式子：
$\begin {align*} l &= \sum_{i = 1}^{n} \mathbf {y}_i^T \log \mathrm {softmax}(\mathbf {a}_{2i}) \\ \mathbf {a}_{2i} &= \mathbf {W}_2^T \mathbf {h}_{1i} + \mathbf {b}_2 \\ \mathbf {h}_{1i} &= \sigma (\mathbf {a}_{1i}) \\ \mathbf {a}_{1i} &= \mathbf {W}_1^T \mathbf {x}_i + \mathbf {b}_1 \end {align*}$

下面去掉样本的求和符号，推导过程与上一节 $\mathrm {softmax}$ 多分类类似，这里直接给出结果：
$\begin {align*} l &= \mathrm {tr}(A_2 \mathbf {Y}^T) - \mathbf {1}_n^T \log [\exp (A_2) \mathbf {1}_c] \\ A_2 &= H_1 \mathbf {W}_2 + \mathbf {1}_n \mathbf {b}_2^T \\ H_1 &= \sigma (A_1) \\ A_1 &= \mathbf {X} \mathbf {W}_1 + \mathbf {1}_n \mathbf {b}_1^T \end {align*}$

同时也可以得到：
$\mathrm {d} l = \mathrm {tr}\left (\left [\frac {\partial l}{\partial A_2}\right]^T \mathrm {d} A_2\right) \quad \left (\text {其中 } \frac {\partial l}{\partial A_2} = \mathbf {Y} - \mathrm {Softmax}(A_2)\right) \tag {4}$

对 $A_2$ 求微分如下：
$\mathrm {d} A_2 = \mathrm {d} H_1 \mathbf {W}_2 + H_ 1 \mathrm {d}\mathbf {W}_2 + \mathbf {1}_n \mathrm {d}\mathbf {b}_2^T$

代入上式可得：
$\begin {align*} \mathrm {d} l &= \mathrm {tr}\left (\left [\frac {\partial l}{\partial A_2}\right]^T \left [\mathrm {d} H_1 \mathbf {W}_2 + H_1 \mathrm {d}\mathbf {W}_2 + \mathbf {1}_n \mathrm {d}\mathbf {b}_2^T\right]\right) \\ &= \mathrm {tr}\left (\mathbf {W}_2 \left [\frac {\partial l}{\partial A_2}\right]^T \mathrm {d} H_1 + \left [\frac {\partial l}{\partial A_2}\right]^T H_1 \mathrm {d}\mathbf {W}_2 + \mathbf {1}_n^T \left [\frac {\partial l}{\partial A_2}\right] \mathrm {d}\mathbf {b}_2\right) \\ &= \mathrm {tr}\left (\left [\frac {\partial l}{\partial H_1}\right]^T \mathrm {d} H_1 + \left [\frac {\partial l}{\partial \mathbf {W}_2}\right]^T \mathrm {d}\mathbf {W}_2 + \left [\frac {\partial l}{\partial \mathbf {b}_2}\right]^T \mathrm {d}\mathbf {b}_2\right) \end {align*}$

其中
$\frac {\partial l}{\partial H_1} = \frac {\partial l}{\partial A_2} \mathbf {W}_2^T, \quad \frac {\partial l}{\partial \mathbf {W}_2} = H_1^T \frac {\partial l}{\partial A_2}, \quad \frac {\partial l}{\partial \mathbf {b}_2} = \left [\frac {\partial l}{\partial A_2}\right]^T \mathbf {1}_n$

接下来对 $H_1$ 求微分：
$\mathrm {d} H_1 = \sigma (A_1) \odot \mathrm {d} A_1$

则 $l$ 微分的第一部分可以表示为：
$\begin {align} \mathrm {d} l_1 &= \mathrm {tr}\left (\left [\frac {\partial l}{\partial H_1}\right]^T [\sigma'(A_1) \odot \mathrm {d} A_1]\right) \\ &= \mathrm {tr}\left (\left [\frac {\partial l}{\partial H_1} \odot \sigma'(A_1)\right]^T \mathrm {d} A_1\right) \\ &= \mathrm {tr}\left (\left [\frac {\partial l}{\partial A_1}\right]^T \mathrm {d} A_1\right) \tag {5} \end {align}$

其中
$\frac {\partial l}{\partial A_1} = \frac {\partial l}{\partial H_1} \odot \sigma'(A_1)$

下面计算 $A_1$ 的微分：
$\mathrm {d} A_1 = \mathbf {X} \mathrm {d}\mathbf {W}_1 + \mathbf {1}_n \mathrm {d}\mathbf {b}_1^T$

代入上式可得：
$\begin {align*} \mathrm {d} l_1 &= \mathrm {tr}\left (\left [\frac {\partial l}{\partial A_1}\right]^T \left [\mathbf {X} \mathrm {d}\mathbf {W}_1 + \mathbf {1}_n \mathrm {d}\mathbf {b}_1^T\right]\right) \\ &= \mathrm {tr}\left (\left [\frac {\partial l}{\partial A_1}\right]^T \mathbf {X} \mathrm {d}\mathbf {W}_1 + \mathbf {1}_n^T \left [\frac {\partial l}{\partial A_1}\right] \mathrm {d}\mathbf {b}_1\right) \\ &= \mathrm {tr}\left (\left [\frac {\partial l}{\partial \mathbf {W}_1}\right]^T \mathrm {d}\mathbf {W}_1 + \left [\frac {\partial l}{\partial \mathbf {b}_1}\right]^T \mathrm {d}\mathbf {b}_1\right) \end {align*}$

其中
$\frac {\partial l}{\partial \mathbf {W}_1} = \mathbf {X}^T \frac {\partial l}{\partial A_1}, \quad \frac {\partial l}{\partial \mathbf {b}_1} = \left [\frac {\partial l}{\partial A_1}\right]^T \mathbf {1}_n$

推导已完成，再一层一层带回去，即可得到 $l$ 对 $\mathbf {W}_1$ 、 $\mathbf {W}_2$ 、 $\mathbf {b}_1$ 、 $\mathbf {b}_2$ 的导数。

参考资料

张贤达. 矩阵分析与应用. 清华大学出版社有限公司, 2004.
Fackler, Paul L. “Notes on matrix calculus.” North Carolina State University(2005).
Petersen, Kaare Brandt, and Michael Syskind Pedersen. “The matrix cookbook.” Technical University of Denmark 7 (2008): 15.
HU, Pili. “Matrix Calculus: Derivation and Simple Application.” (2012).
Magnus, Jan R., and Heinz Neudecker. “Matrix Differential Calculus with Applications in Statistics and Econometrics.” Wiley, 2019.