数学基础 | (5) 矩阵求导Part One_矩阵求导是哪本书的-优快云博客

原文地址

矩阵求导的技术，在统计学、控制论、机器学习等领域有广泛的应用。鉴于我看过的一些资料或言之不详、或繁乱无绪，本文来做个科普，分作两篇，上篇讲标量对矩阵的求导术，下篇讲矩阵对矩阵的求导术。本文使用小写字母x表示标量，粗体小写字母 $\textbf{x}$ 表示向量，大写字母X表示矩阵。

首先来琢磨一下定义，标量f对矩阵X的导数，定义为 $\frac{\partial f}{\partial X} = [\frac{\partial f}{\partial X_{ij}}]$ ,即f对X逐元素求导排成与X尺寸相同的矩阵。然而，这个定义在计算中并不好用，实用上的原因是在对较复杂的函数难以逐元素求导；哲理上的原因是逐元素求导破坏了整体性。试想，为何要将f看做矩阵X而不是各元素 $X_{ij}$ 的函数呢？答案是用矩阵运算更整洁。所以在求导时不宜拆开矩阵，而是要找一个从整体出发的算法。

为此，我们来回顾，一元微积分中的导数（标量对标量的导数）与微分有联系： df = f'(x) dx ;多元微积分中的梯度（标量对向量的导数）也与微分有联系: $df = \sum_{i}\frac{\partial f}{\partial x_i} dx_i = \frac{\partial f}{\partial \textbf{x}}^T d\textbf{x}$ ,这里第一个等号是全微分公式，第二个等号表达了梯度 $\frac{\partial f}{\partial \textbf{x}}$ 与微分的联系；受此启发，我们将矩阵导数与微分建立联系: $df = \sum_{i,j}\frac{\partial f}{\partial X_{ij}}dX_{ij} = tr(\frac{\partial f}{\partial X}^T dX)$ ,这里tr代表迹(trace)是方阵对角线元素之和，满足性质：对尺寸相同的矩阵A,B, $tr(A^TB) = \sum_{i,j}A_{ij}B_{ij}$ ,即是矩阵A，B的内积，因此上式与原定义相容。

然后来建立运算法则。回想遇到较复杂的一元函数如 $f = log(2+sin x)e^{\sqrt{x}}$ ,我们是如何求导的呢？通常不是从定义开始求极限，而是先建立了初等函数求导和四则运算、复合等法则，再来运用这些法则。故而，我们来创立常用的矩阵微分的运算法则：

1）加减法： $d(X\pm Y) = dX \pm dY$ ;矩阵乘法： d(XY) =YdX + XdY ;转置： d(X^T) = (dX)^T ;迹： dtr(X) = tr(dX)

2）逆： $dX^{-1} = -X^{-1}dX X^{-1}$ ,此式可在 $XX^{-1} = I$ 两侧求微分来证明。

3）行列式： $d|X| = tr(X^{\#}dX)$ ,其中 $X^{\#}$ 表示X的伴随矩阵，在X可逆时又可以写作 $d|X| =|X| tr(X^{-1}dX)$ .此式可用Laplace展开来证明，详见张贤达《矩阵分析与应用》第279页。

4）逐元素乘法： $d(X \odot Y) = dX\odot Y + X\odot dY$ , $\odot$ 表示尺寸相同的矩阵X,Y逐元素相乘。

5）逐元素函数： $d \sigma(X) = \sigma'(X) \odot dX,\sigma(X) = [\sigma(X_{ij})]$ 是逐元素运算的标量函数。

我们试图利用矩阵导数与微分的联系 $df = tr(\frac{\partial f}{\partial X}^TdX)$ ,在求出左侧的微分df后，该如何写成右侧的形式并得到导数呢？这需要一些迹技巧(trace trick)：

1）标量套上迹： a = tr(a)

2）转置： tr(A^T) = tr(A)

3）线性： $tr(A\pm B) = tr(A)\pm tr(B)$

4）矩阵乘法交换： tr(AB) = tr(BA) ,两侧都等于 $\sum_{i,j}A_{ij}B_{ji}$

5）矩阵乘法/逐元素乘法交换： $tr(A^T(B \odot C)) = tr((A \odot B)^TC)$ .两侧都等于 $\sum_{i,j}A_{ij}B_{ij}C_{ij}$

观察一下可以断言，若标量函数f是矩阵X经加减乘法、行列式、逆、逐元素函数等运算构成，则使用相应的运算法则对f求微分，再使用迹技巧给df套上迹并将其它项交换至dX左侧，即能得到导数。

在建立法则的最后，来谈一谈复合：假设已求得 $\frac{\partial f}{\partial Y}$ ,而Y是X的函数，如何求 $\frac{\partial f}{\partial X}$ 呢？在微积分中有标量求导的链式法则 $\frac{\partial f}{\partial x} = \frac{\partial f}{\partial y} \frac{\partial y}{\partial x}$ ,但这里我们不能随意沿用标量的链式法则，因为矩阵对矩阵的导数 $\frac{\partial Y}{\partial X}$ 截至目前仍是未定义的。于是我们继续追本溯源，链式法则是从何而来？源头仍然是微分。我们直接从微分入手建立复合法则：先写出 $df = tr(\frac{\partial f}{\partial Y}^TdY)$ ,再将dY用dX表示出来代入，并使用迹技巧将其他项交换至dX左侧，即可求得 $\frac{\partial f}{\partial X}$ 。