Vector, Matrix, and Tensor Derivatives by Erik Learned-Miller（译）-优快云博客

本文档旨在帮助您了解和获取矢量、矩阵和高阶张量（具有三维或更多维的阵列）的导数。

1 简化，简化，简化

对数组进行求导的大部分困惑源于试图同时做太多事情。这些事情包括同时获取多个部分的导数、在存在求和符号的情况下获取导数、以及应用链式法则。至少在缺乏经验的情况下，试图同时完成所有这些事情将会使我们犯错的可能性大大增加。

1.1 将符号扩展为每个部分的显式和与方程式

为了简化给定的计算，为输出的单个标量元素(除了标量变量之外)写出显式公式通常很有用。一旦根据其他标量值能够得到输出的单个标量元素的一个显式公式，那么使用微积分就可以解决问题，这比尝试同时进行矩阵数学，求和以及导数计算更容易。

Example. 假设我们有一个长度为 $C$ 的列向量 $y⃗\vec{y}$ ，它通过形成 $C×DC\times D$ 矩阵 $W$ 与长度为 $D$ 的列向量 $x⃗\vec{x}$ 的乘积来计算：
$\vec{y}=W\vec{x} \tag{1}。$ 假设我们需要研究 $y⃗\vec{y}$ 关于 $x⃗\vec{x}$ 的导数。该导数的完整表征需要 $y⃗\vec{y}$ 的每个分量相对于 $x⃗\vec{x}$ 的每个分量的（偏）导数，在这种情况下，其将包含 $C \times D$ 个值，因为在 $y⃗\vec{y}$ 中有 $C$ 个分量，在 $x⃗\vec{x}$ 中有 $D$ 个分量。
让我们从计算其中一个开始，比如 $y⃗\vec{y}$ 的第3个分量，相对于 $x⃗\vec{x}$ 的第7个分量。也就是说，我们想要计算
$\frac{\partial \vec{y}_{3}}{\partial \vec{x}_{7}}，$ 这只是一个标量关于另一个标量的导数。
要做的第一件事就是写下计算 $y⃗3\vec{y}_{3}$ 的公式，这样我们就可以得出它的导数。根据矩阵向量乘法的定义，通过取 $W$ 的第3行和向量 $x⃗\vec{x}$ 之间的点积来计算值 $y⃗3\vec{y}_{3}$ ：
$\vec{y}_{3}=\sum_{j=1}^{D}{W_{3,j} \vec{x}_{j}} \tag{2}。$ 此时，我们已经将原始矩阵方程 $(1)$ 简化为标量方程。这使得计算所需的导数变得更容易。

1.2 去掉求和符号

虽然直接从公式 $(2)$ 计算导数当然是可能的，但人们在区分包含求和符号（ $∑\sum$ ）或乘积符号（ $∏\prod$ ）的表达式时经常会出错。开始计算时，写出一个没有任何求和符号的计算有时候是有用的，这能确保你做的一切正确。使用“1”作为第一个下标，我们有：
$\vec{y}_{3}=W_{3,1} \vec{x}_{1}+W_{3,2} \vec{x}_{2}+...+W_{3,7} \vec{x}_{7}+...+W_{3,D} \vec{x}_{D}。$ 当然，我已经明确地包含了涉及 $x⃗7\vec{x}_{7}$ 的术语，因为这就是我们在这方面的不同之处。在这一点上，我们可以看到 $y⃗3\vec{y}_{3}$ 的表达式仅依赖于 $x⃗7\vec{x}_{7}$ 到单个项 $W3,7x⃗7W_{3,7} \vec{x}_{7}$ 。由于求和中的其他项都不包括 $x⃗7\vec{x}_{7}$ ，因此它们相对于 $x⃗7\vec{x}_{7}$ 的导数都是0.因此，我们有
$\begin{aligned} \frac{\partial \vec{y}_{3}}{\partial \vec{x}_{7}}&=\frac{\partial }{\partial \vec{x}_{7}}{[W_{3,1} \vec{x}_{1}+W_{3,2} \vec{x}_{2}+...+W_{3,7} \vec{x}_{7}+...+W_{3,D} \vec{x}_{D}]} \tag{3}\\ &=0+0+...+\frac{\partial }{\partial \vec{x}_{7}}{[W_{3,7} \vec{x}_{7}]}+...+0\\ &=\frac{\partial }{\partial \vec{x}_{7}}{[W_{3,7} \vec{x}_{7}]}\\ &=W_{3,7}。 \end{aligned}$ 通过关注 $y⃗\vec{y}$ 的一个分量和 $x⃗\vec{x}$ 的一个分量，我们使计算变得尽可能简单。在将来，当您感到困惑时，可以尝试将问题减少到这个最基本的设置，以查看您出错的地方。

1.2.1 完成导数：Jacobian矩阵

回想一下，我们的最初目标是计算 $y⃗\vec{y}$ 的每个分量相对于 $x⃗\vec{x}$ 的每个分量的导数，并且我们注意到其数量将是 $C×DC\times D$ 。它们可以以下列形式写成矩阵：
$\begin{bmatrix} \frac{\partial \vec{y}_{1}}{\partial \vec{x}_{1}} &\frac{\partial \vec{y}_{1}}{\partial \vec{x}_{2}} &\frac{\partial \vec{y}_{1}}{\partial \vec{x}_{3}} &\cdots &\frac{\partial \vec{y}_{1}}{\partial \vec{x}_{D}} \\ \frac{\partial \vec{y}_{2}}{\partial \vec{x}_{1}} &\frac{\partial \vec{y}_{2}}{\partial \vec{x}_{2}} &\frac{\partial \vec{y}_{2}}{\partial \vec{x}_{3}} &\cdots &\frac{\partial \vec{y}_{2}}{\partial \vec{x}_{D}} \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ \frac{\partial \vec{y}_{C}}{\partial \vec{x}_{1}} &\frac{\partial \vec{y}_{C}}{\partial \vec{x}_{2}} &\frac{\partial \vec{y}_{C}}{\partial \vec{x}_{3}} &\cdots &\frac{\partial \vec{y}_{C}}{\partial \vec{x}_{D}} \\ \end{bmatrix}$ 在这种特殊情况下，这称为雅可比矩阵，但这个术语对我们的目的来说并不太重要。
请注意,对于等式
$\vec{y}=W\vec{x}，$ 关于 $x⃗7\vec{x}_{7}$ 的 $y⃗3\vec{y}_{3}$ 的部分简单地由 $W_{3,7}$ 给出。如果你对其他组件进行相同的处理，你会发现，对于所有 $i$ 和 $j$ ，
$\frac{\partial \vec{y}_{i}}{\partial \vec{x}_{j}}=W_{i,j}。$ 这意味着偏导数矩阵是
$\begin{bmatrix} \frac{\partial \vec{y}_{1}}{\partial \vec{x}_{1}} &\frac{\partial \vec{y}_{1}}{\partial \vec{x}_{2}} &\frac{\partial \vec{y}_{1}}{\partial \vec{x}_{3}} &\cdots &\frac{\partial \vec{y}_{1}}{\partial \vec{x}_{D}} \\ \frac{\partial \vec{y}_{2}}{\partial \vec{x}_{1}} &\frac{\partial \vec{y}_{2}}{\partial \vec{x}_{2}} &\frac{\partial \vec{y}_{2}}{\partial \vec{x}_{3}} &\cdots &\frac{\partial \vec{y}_{2}}{\partial \vec{x}_{D}} \\ \vdots &\vdots &\vdots &\ddots &\vdots \\ \frac{\partial \vec{y}_{C}}{\partial \vec{x}_{1}} &\frac{\partial \vec{y}_{C}}{\partial \vec{x}_{2}} &\frac{\partial \vec{y}_{C}}{\partial \vec{x}_{3}} &\cdots &\frac{\partial \vec{y}_{C}}{\partial \vec{x}_{D}} \\ \end{bmatrix}= \begin{bmatrix} W_{1,1} & W_{1,2} & W_{1,3} &\cdots & W_{1,D} \\ W_{2,1} & W_{2,2} & W_{2,3} &\cdots & W_{2,D} \\ \vdots & \vdots & \vdots &\ddots &\vdots \\ W_{C,1} & W_{C,2} & W_{C,3} &\cdots & W_{C,D} \\ \end{bmatrix}$ 这显然就是 $W$ 本身。
因此，基于以上所做工作我们可以得出结论，对于
$\vec{y}=W\vec{x}，$ 我们有
$\frac{\mathrm{d} \vec{y}}{\mathrm{d} \vec{x}}=W。$

2 行向量而不是列向量

在处理不同的神经网络包时，我们应当密切注意权重矩阵、数据矩阵等的排列。例如，如果数据矩阵 $X$ 包含许多不同的矢量，每个矢量代表一个输入，则每个数据矢量是否构成数据矩阵 $X$ 的行或列？
在第一部分的示例中，我们使用了矢量 $x⃗\vec{x}$ ，它是一个列向量。但是，当 $x⃗\vec{x}$ 是行向量时，您还应该能够使用相同的基本思想。

2.1 Example 2

令 $y⃗\vec{y}$ 是长度为 $C$ 的行向量，其通过取另一长度为 $D$ 的行向量 $x⃗\vec{x}$ 和 $D$ 行 $C$ 列的矩阵W的乘积来计算。
$\vec{y}=\vec{x}W。$ 重要的是，尽管 $y⃗\vec{y}$ 和 $x⃗\vec{x}$ 分量数量并未改变，但 $W$ 的形状却变成 $W$ 之前形状的转置。特别是，因为我们现在左乘 $x⃗\vec{x}$ ，而之前 $x⃗\vec{x}$ 在右边，所以 $W$ 必须转换为矩阵代数才能使用。
在这种情况下，由
$\vec{y}_{3}=\sum_{j=1}^{D}{ \vec{x}_{j} W_{j,3}}$ 可以得到
$\frac{\partial \vec{y}_{3}}{\partial \vec{x}_{7}}=W_{7,3}。$ 请注意，W的下标与第一个示例中的下标相反。然而，当写出完整的雅可比矩阵时，我们仍然可以看到，
$\frac{\mathrm{d} \vec{y}}{\mathrm{d} \vec{x}}=W \tag{4}。$

3 处理更高的维度

让我们考虑另一个密切相关的问题，即计算
$\frac{\mathrm{d} \vec{y}}{\mathrm{d} W}。$ 在这种情况下， $y⃗\vec{y}$ 沿一个坐标变化，而 $W$ 沿两个坐标变化。因此，所有的导数自然而然包含在三维阵列中。我们避免使用术语“三维矩阵”，因为不清楚矩阵乘法和其他矩阵运算是如何在三维阵列上定义的。
处理三维数组时，尝试找到显示它们的方法可能会更麻烦。相反，我们应该简单地将结果定义为可用于计算所需三维数组的任何元素的结果的公式。
让我们再次计算 $y⃗\vec{y}$ 的一个分量之间的标量导数，比如 $y⃗3\vec{y}_{3}$ 和 $W$ 的一个分量，比如 $W_{7,8}$ 。让我们从相同的基本设置开始，在这些设置中我们用其他标量分量来记录 $y⃗3\vec{y}_{3}$ 的等式。现在我们想要一个用标量值表示 $y⃗3\vec{y}_{3}$ 的方程，并显示 $W_{7,8}$ 在其计算中的作用。
然而，我们看到的是 $W_{7,8}$ 在 $y⃗3\vec{y}_{3}$ 的计算中没有任何作用，因为
$\vec{y}_{3}= \vec{x}_{1}W_{1,3}+\vec{x}_{2}W_{2,3} +...+\vec{x}_{D}W_{D,3} \tag{5} 。$ 也就是说，
$\frac{\partial \vec{y}_{3}}{\partial W_{7,8}}=0。$ 然而， $y⃗3\vec{y}_{3}$ 关于 $W$ 的第3列的元素的导数肯定是非零的。例如， $y⃗3\vec{y}_{3}$ 相对于W_{2,3}的导数由下式给出
$\frac{\partial \vec{y}_{3}}{\partial W_{2,3}}=\vec{x}_{2}\tag{6}，$ 通过检查公式 $(5)$ 可以很容易地看出。
通常，当 $y⃗\vec{y}$ 分量的下标等于 $W$ 的第二下标时，导数将为非零，否则将为零。即：
$\frac{\partial \vec{y}_{j}}{\partial W_{i,j}}=\vec{x}_{i}，$ 但是该三维数组的其他元素将为0.令 $F$ 表示代表 $y⃗\vec{y}$ 相对于 $W$ 的导数的三维数组，其中
$F_{i,j,k}=\frac{\partial \vec{y}_{i}}{\partial W_{j,k}}，$ 则
$F_{i,j,i}=\vec{x}_{j}，$ 但是 $F$ 的所有其他元素都是零。
最后，如果我们将一个新的二维数组 $G$ 定义为
$G_{i,j}=F_{i,j,i}，$ 我们可以看到，我们需要的关于 $F$ 的所有信息都可以存储在 $G$ 中，并且 $F$ 的非平凡部分实际上是二维的，而不是三维的。
以紧凑的方式表示导数阵列的重要部分对于神经网络的有效实现是至关重要的。

4 多个数据点

重复一些前面的例子是一个很好的练习，但是我们可以使用 $x⃗\vec{x}$ 的多个例子，堆叠在一起形成矩阵 $X$ .假设每个 $x⃗\vec{x}$ 都是长度为 $D$ 的行向量，而 $X$ 是二维的、具有 $N$ 行 $D$ 列的数组。 $W$ ，如在我们的上一个示例中，将是具有 $D$ 行和 $C$ 列的矩阵。 $Y$ ，由下式给出
$Y = X W ，$ 也将是一个矩阵，有 $N$ 行和 $C$ 列。因此， $Y$ 的每一行将给出与输入 $X$ 的相应行相关联的行向量。
坚持之前为输出的给定部分写下表达式的操作，我们有
$Y_{i,j}=\sum_{k=1}^{D}{X_{i,k}W_{k,j}}。$ 我们可以从这个等式中直接看出导数
$\frac{\partial Y_{a,b}}{\partial X_{c,d}}，$ 除非 $a = c$ ，否则它们都为零。也就是说，由于 $Y$ 的每个分量仅使用相应的 $X$ 行来计算，因此 $Y$ 和 $X$ 的不同行之间的分量的导数都是零。
此外，我们可以知道
$\frac{\partial Y_{i,j}}{\partial X_{i,k}}=W_{k,j}\tag{7}，$ 并不完全取决于我们正在比较的 $Y$ 和 $X$ 的行。
事实上，矩阵 $W$ 保持所有这些部分——我们只需要根据等式 $(7)$ 索引，来获得我们想要的特定偏导数。
如果我们让 $Y_{i,:}$ 成为 $Y$ 的第i行，让 $X_{i,:}$ 成为 $X$ 的第i行，那么我们得到
$\frac{\partial Y_{i,:}}{\partial X_{i,:}}=W，$ 这是我们先前从公式 $(4)$ 得到的结果的简单推广。

5 链式法则与向量和矩阵相结合

现在我们已经完成了几个基本的例子，让我们将这些想法与链式法则的例子结合起来。同样，假设 $y⃗\vec{y}$ 和 $x⃗\vec{x}$ 是列向量，让我们从这个等式开始
$\vec{y}=VW\vec{x}，$ 并尝试计算 $y⃗\vec{y}$ 相对于 $x⃗\vec{x}$ 的导数。我们可以简单地观察到两个矩阵 $V$ 和 $W$ 的乘积是另一个矩阵，令之为 $U$ ，因此
$\frac{\mathrm{d} \vec{y}}{\mathrm{d} \vec{x}}=VW=U。$ 但是，我们想通过使用链式法则来定义中间结果，这样我们就可以看到链式法则如何应用于非标量导数的情况下的过程。
定义中间结果为
$\vec{m}=W\vec{x}。$ 则我们有
$\vec{y}=V\vec{m}。$ 运用链式法则，可以进一步得到
$\frac{\mathrm{d} \vec{y}}{\mathrm{d} \vec{x}}=\frac{\mathrm{d} \vec{y}}{\mathrm{d} \vec{m}}\frac{\mathrm{d} \vec{m}}{\mathrm{d} \vec{x}}。$ 为了确保我们确切地知道这能给我们带来什么，让我们采用分析单个元素的老方法，从 $y⃗\vec{y}$ 的单个元素和 $x⃗\vec{x}$ 的单个元素开始：
$\frac{\mathrm{d} \vec{y}_{i}}{\mathrm{d} \vec{x}_{j}}=\frac{\mathrm{d} \vec{y}_{i}}{\mathrm{d} \vec{m}}\frac{\mathrm{d} \vec{m}}{\mathrm{d} \vec{x}_{j}}。$ 但是我们究竟应该如何解释右边的乘积呢？链式法则的含义是将 $y⃗i\vec{y}_{i}$ 相对于每个标量中间变量的变化乘以每个标量中间变量相对于 $x⃗j\vec{x}_{j}$ 的变化。特别是，如果 $m⃗\vec{m}$ 有 $M$ 个元素，那么我们可以改写
$\frac{\mathrm{d} \vec{y}_{i}}{\mathrm{d} \vec{x}_{j}}=\sum_{k=1}^{M}{\frac{\mathrm{d} \vec{y}_{i}}{\mathrm{d} \vec{m}_{k}}\frac{\mathrm{d} \vec{m}_{k}}{\mathrm{d} \vec{x}_{j}}}。$ 回想一下我们之前关于矢量导数的结果:
$\frac{\mathrm{d} \vec{y}_{i}}{\mathrm{d} \vec{m}_{k}}$ 就是 $V_{i,k}$ ，且
$\frac{\mathrm{d} \vec{m}_{k}}{\mathrm{d} \vec{x}_{j}}$ 就是 $W_{k,j}$ 。所以我们可以得出
$\frac{\mathrm{d} \vec{y}_{i}}{\mathrm{d} \vec{x}_{j}}=\sum_{k=1}^{M}{V_{i,k}W_{k,j}}，$ 也即是 $V W$ 的表达式，或者说是我们对问题的原始答案。
总而言之，我们可以在矢量和矩阵的导数求解中按照以下步骤使用链式法则：