矩阵代数与矩阵函数全解析
1. 矩阵与线性算子基础
1.1 矩阵定义与线性空间
在数学领域,矩阵是一个极为重要的概念。对于两个 $n$ 维向量 $\mathbf{x} = (x_1, \cdots, x_n)^T$ 和 $\mathbf{y} = (y_1, \cdots, y_n)^T$,以及标量 $\lambda$,向量的加法 $\mathbf{x} + \mathbf{y}$ 和数乘 $\lambda\mathbf{x}$ 分别得到 $(x_1 + y_1, \cdots, x_n + y_n)^T$ 和 $(\lambda x_1, \cdots, \lambda x_n)^T$,所有 $n$ 维向量构成的集合 $E_n$ 被称为线性(或向量)空间。若为实向量空间,它是 $n$ 维的;若为复向量空间,则是 $2n$ 维的。以实向量空间为例,其一组自然基为 $(\mathbf{e}_1, \cdots, \mathbf{e}_n)$,其中 $\mathbf{e}_k$ 除第 $k$ 个位置为 1 外,其余位置均为 0。
一个 $n \times p$ 阶矩阵 $\mathbf{X}$ 是由实数或复数 $x_{ij}$($i = 1, \cdots, n$;$j = 1, \cdots, p$)组成的集合,形式如下:
[
\mathbf{X} =
\begin{pmatrix}
x_{11} & x_{12} & \cdots & x_{1p} \
x_{21} & x_{22} & \cdots & x_{2p} \
\vdots & \vdots & \ddots & \vdots \
x_{n1} & x_{n2} & \cdots & x_{np}
\end{pmatrix}
= [x_{ij}]
]
当 $p = 1$ 时,矩阵退化为 $n$ 维向量;当 $n = p$ 时,矩阵被称为方阵。
对于任意两个 $n \times p$ 矩阵 $\mathbf{X} = [x_{ij}]$ 和 $\mathbf{Y} = [y_{ij}]$,以及标量 $\lambda$,矩阵的加法和数乘运算定义为 $\mathbf{X} + \mathbf{Y} = [x_{ij} + y_{ij}]$ 和 $\lambda\mathbf{X} = [\lambda x_{ij}]$。所有 $n \times p$ 实矩阵构成一个维数为 $np$ 的线性空间。
1.2 矩阵与线性算子的关系
任何 $n \times p$ 矩阵 $\mathbf{X}$ 都可看作是从线性空间 $E_p$ 到线性空间 $E_n$ 的线性算子的一种表示。例如,当 $E_n$ 为实空间时,$E_n = \mathbb{R}^n$。设 $\mathbf{x} k = (x {1k}, \cdots, x_{nk})^T$,则矩阵 $\mathbf{X}$ 可写成 $\mathbf{X} = [\mathbf{x}_1, \cdots, \mathbf{x}_p]$,矩阵 $\mathbf{X}$ 的第 $k$ 列 $\mathbf{x}_k$ 是 $E_p$ 中第 $k$ 个基向量 $\mathbf{e}_k$ 的像,即 $\mathbf{X}\mathbf{e}_k = \mathbf{x}_k$。
2. 矩阵的基本运算
2.1 转置运算
对于一个 $n \times p$ 矩阵 $\mathbf{X} = (x_{ij})$,其转置矩阵 $\mathbf{X}^T = [y_{ij}]$,其中 $y_{ij} = x_{ji}$。
2.2 乘法运算
$n \times p$ 矩阵 $\mathbf{X}$ 与 $p \times q$ 矩阵 $\mathbf{Y}$ 的乘积 $\mathbf{Z} = \mathbf{XY}$ 是一个 $n \times q$ 矩阵,定义为 $\mathbf{Z} = [z_{ij}]$,其中 $z_{ij} = \sum_{k = 1}^{p} x_{ik}y_{kj}$。
2.3 对角矩阵
对角矩阵是 $n \times n$ 矩阵,形式为 $\mathbf{A} = [x_{ij}\delta_{ij}]$,其中 $\delta_{ij}$ 是克罗内克符号。对于 $n \times p$ 矩阵 $\mathbf{A}$,主对角线由所有元素 $a_{ii}$($i = 1, \cdots, \min(n, p)$)组成。
2.4 矩阵的迹
对于方阵 $\mathbf{X} = (x_{ij})$,其迹定义为 $\text{tr}(\mathbf{X}) = \sum_{k = 1}^{n} x_{kk}$。
2.5 行列式
对于 $p \times p$ 矩阵 $\mathbf{X} = (x_{ij})$,其行列式 $|\mathbf{X}|$ 是矩阵列的多线性函数,定义为:
[
\det(\mathbf{X}) = |\mathbf{X}| = \sum_{\pi} (-1)^{|\pi|} \prod_{k = 1}^{p} x_{k\pi(k)}
]
其中求和是对 ${1, 2, \cdots, p}$ 的所有排列 $\pi$ 进行,$|\pi|$ 根据 $\pi$ 可写成偶数个或奇数个对换的乘积分别取 $+1$ 或 $-1$。行列式也可递归定义,对于标量 $x$,$\det(x) = x$;对于 $p \times p$ 矩阵 $\mathbf{X}$,有:
[
|\mathbf{X}| = \sum_{j} (-1)^{i + j}x_{ij}\Delta_{ij} = \sum_{i} (-1)^{i + j}x_{ij}\Delta_{ij}
]
其中 $\Delta_{ij}$ 是删除第 $i$ 行和第 $j$ 列后得到的 $(p - 1) \times (p - 1)$ 矩阵 $\mathbf{X}
{-(i,j)}$ 的行列式,称为 $x
{ij}$ 的余子式,$c_{ij} = (-1)^{i + j}\Delta_{ij}$ 称为 $x_{ij}$ 的代数余子式。并且有 $\sum_{k = 1}^{p} x_{ik}c_{jk} = |\mathbf{X}|\delta_{ij}$。
2.6 矩阵求逆
- 常规逆 :当 $|\mathbf{X}| \neq 0$ 时,方阵 $\mathbf{X} = (x_{ij})$ 可逆,其逆矩阵 $\mathbf{X}^{-1}$ 满足 $\mathbf{XX}^{-1} = \mathbf{X}^{-1}\mathbf{X} = \mathbf{I}_p$,且 $\mathbf{X}^{-1} = \frac{1}{|\mathbf{X}|}\mathbf{C}^T$,其中 $\mathbf{C}$ 是 $\mathbf{X}$ 的代数余子式矩阵。
- 广义逆 :对于 $n \times p$ 矩阵 $\mathbf{X}$,其广义逆 $\mathbf{X}^{-}$ 是一个 $p \times n$ 矩阵,满足 $\mathbf{XX}^{-}$ 和 $\mathbf{X}^{-}\mathbf{X}$ 对称,$\mathbf{XX}^{-}\mathbf{X} = \mathbf{X}$,$\mathbf{X}^{-}\mathbf{XX}^{-} = \mathbf{X}^{-}$,广义逆是唯一的,也称为伪逆或 Moore - Penrose 逆。
- 矩阵的秩 :矩阵 $\mathbf{X}$ 的秩是其列或转置列中线性无关的列数,也是 $\mathbf{X}$ 中最大可逆方子矩阵的行数(和列数),满足 $\text{rank}(\mathbf{X}) \leq \min(n, p)$。当 $\text{rank}(\mathbf{X}) = \min(n, p)$ 时,矩阵称为满秩矩阵。
2.7 矩阵的对称性、正交性和正规性
对于实 $p \times p$ 方阵 $\mathbf{X}$:
- 当 $\mathbf{X}^T = \mathbf{X}$ 时,矩阵 $\mathbf{X}$ 是对称的;
- 当 $\mathbf{XX}^T = \mathbf{X}^T\mathbf{X} = \mathbf{I}_p$ 时,矩阵 $\mathbf{X}$ 是正交(或酉)的;
- 当矩阵与它的转置可交换,即 $\mathbf{XX}^T = \mathbf{X}^T\mathbf{X}$(复矩阵时),矩阵 $\mathbf{X}$ 是正规的;
- 当 $\mathbf{X}^{
T} = \mathbf{X}$ 时,矩阵 $\mathbf{X}$ 是 Hermitian 的。对于复矩阵,除转置 $(T)$ 被复共轭转置 $(
T)$ 取代外,其他两个性质保持不变。
2.8 直积运算
设 $\mathbf{A} = (a_{ij})$ 和 $\mathbf{B} = (b_{ij})$ 分别是 $n \times p$ 和 $q \times r$ 矩阵,它们的直积 $\mathbf{A} \otimes \mathbf{B}$ 是一个 $nq \times pr$ 矩阵,定义为:
[
\mathbf{A} \otimes \mathbf{B} =
\begin{pmatrix}
a_{11}\mathbf{B} & a_{12}\mathbf{B} & \cdots & a_{1p}\mathbf{B} \
a_{21}\mathbf{B} & a_{22}\mathbf{B} & \cdots & a_{2p}\mathbf{B} \
\vdots & \vdots & \ddots & \vdots \
a_{n1}\mathbf{B} & a_{n2}\mathbf{B} & \cdots & a_{np}\mathbf{B}
\end{pmatrix}
]
直积也称为 Kronecker 积。此外,还有 Hadamard 积,对于两个同阶的 $n \times p$ 矩阵 $\mathbf{A} = (a_{ij})$ 和 $\mathbf{B} = (b_{ij})$,定义为 $\mathbf{A} \odot \mathbf{B} = [a_{ij}b_{ij}]$。
2.9 矩阵的正定性
对于 $p \times p$ 方阵 $\mathbf{A}$,若对于任意 $p$ 维向量 $\mathbf{x}$ 都有 $\mathbf{x}^T\mathbf{A}\mathbf{x} \geq 0$,则矩阵 $\mathbf{A}$ 是半正定的;若对于任意非零 $p$ 维向量 $\mathbf{x}$ 都有 $\mathbf{x}^T\mathbf{A}\mathbf{x} > 0$,则矩阵 $\mathbf{A}$ 是正定的。
2.10 特征值和特征向量
对于 $p \times p$ 矩阵 $\mathbf{A}$,其特征值是代数多项式方程 $|\mathbf{A} - \lambda\mathbf{I}_p| = 0$ 的复数解 $\lambda_1, \cdots, \lambda_p$,特征向量 $\mathbf{u}_1, \cdots, \mathbf{u}_p$ 是满足 $\mathbf{A}\mathbf{u} = \lambda\mathbf{u}$ 的解,通常特征向量取单位长度。对于任何可逆 $p \times p$ 矩阵 $\mathbf{B}$,$\mathbf{A}$ 和 $\mathbf{B}^{-1}\mathbf{AB}$ 的特征值相同。
2.11 方阵的一些性质
设 $\mathbf{A}$ 和 $\mathbf{B}$ 是两个 $p \times p$ 矩阵:
- $\text{tr}(\alpha\mathbf{A} + \mathbf{B}) = \alpha\text{tr}(\mathbf{A}) + \text{tr}(\mathbf{B})$,对于任意数 $\alpha$;
- $\text{tr}(\mathbf{AB}) = \text{tr}(\mathbf{BA})$;
- $\text{tr}(\mathbf{A}) = \text{tr}(\mathbf{P}^{-1}\mathbf{AP})$,对于任何非奇异 $p \times p$ 矩阵 $\mathbf{P}$;
- $\text{tr}(\mathbf{A}\mathbf{x}\mathbf{x}^T) = \mathbf{x}^T\mathbf{A}\mathbf{x}$,其中 $\mathbf{x}$ 是向量;
- $(\mathbf{AB})^{-1} = \mathbf{B}^{-1}\mathbf{A}^{-1}$;
- $\det(\mathbf{AB}) = |\mathbf{AB}| = |\mathbf{A}||\mathbf{B}|$;
- $|\mathbf{A} \otimes \mathbf{B}| = |\mathbf{A}|^p|\mathbf{B}|^p$,$\text{tr}(\mathbf{A} \otimes \mathbf{B}) = \text{tr}(\mathbf{A})\text{tr}(\mathbf{B})$;
- $\text{tr}(\mathbf{A}) = \sum_{k = 1}^{p} \lambda_k$,其中 $\lambda_1, \cdots, \lambda_p$ 是 $\mathbf{A}$ 的特征值;
- 对应不同特征值的特征向量是正交的;
- $\text{rank}(\mathbf{A}) = #{\lambda_k; \lambda_k \neq 0}$;
- 若 $\mathbf{A}$ 是实对称矩阵,则其特征值 $\lambda_1, \cdots, \lambda_p$ 和特征向量 $\mathbf{P} = [\mathbf{u}_1, \cdots, \mathbf{u}_p]$ 是实的;若 $\mathbf{A}$ 是半正定的,则其特征值均非负;若矩阵是 Hermitian 的,则其特征值也均非负,且有 $\mathbf{A} = \mathbf{P}\Lambda\mathbf{P}^{*T}$,其中 $\Lambda = \text{diag}[\lambda_1, \cdots, \lambda_p]$;
- 若 $\mathbf{A}$ 是正规的,即与它的 Hermitian 转置可交换,则它是可对角化的,并有一组完整的正交特征向量。
2.12 奇异值分解(SVD)
任何 $n \times p$ 实矩阵 $\mathbf{X}$,秩为 $r$,可分解为 $\mathbf{X} = \mathbf{U}\mathbf{D}\mathbf{V}^T$,其中 $\mathbf{U}$ 和 $\mathbf{V}$ 分别是 $n \times r$ 和 $p \times r$ 的正交矩阵,即 $\mathbf{U}^T\mathbf{U} = \mathbf{V}^T\mathbf{V} = \mathbf{I}_r$,$\mathbf{D} = \text{diag}(d_1, \cdots, d_r)$,$d_k > 0$($k = 1, \cdots, r$)是 $\mathbf{X}$ 的奇异值。
2.13 乘积和定理与分块矩阵定理
- 乘积和定理 :设 $\mathbf{A}$、$\mathbf{B}$、$\mathbf{C}$ 和 $\mathbf{D}$ 分别是 $p \times p$、$p \times q$、$q \times q$ 和 $q \times p$ 矩阵,当所有必要的逆存在时,有 $(\mathbf{A} + \mathbf{BCD})^{-1} = \mathbf{A}^{-1} - \mathbf{A}^{-1}\mathbf{B}[\mathbf{C}^{-1} + \mathbf{DA}^{-1}\mathbf{B}]^{-1}\mathbf{DA}^{-1}$,$|\mathbf{A} + \mathbf{BD}| = |\mathbf{A}||\mathbf{I}_p + \mathbf{A}^{-1}\mathbf{BD}| = |\mathbf{A}||\mathbf{I}_q + \mathbf{DA}^{-1}\mathbf{B}|$。
-
分块矩阵定理
:设 $\mathbf{A}$ 是分块矩阵 $\mathbf{A} =
\begin{bmatrix}
\mathbf{A} {11} & \mathbf{A} {12} \
\mathbf{A} {21} & \mathbf{A} {22}
\end{bmatrix}$,当所有必要的逆存在时,$|\mathbf{A}| = |\mathbf{A} {11}||\mathbf{A} {22} - \mathbf{A} {21}\mathbf{A} {11}^{-1}\mathbf{A} {12}| = |\mathbf{A} {22}||\mathbf{A} {11} - \mathbf{A} {12}\mathbf{A} {22}^{-1}\mathbf{A} {21}|$。若 $\mathbf{A}$ 可逆,其逆矩阵 $\mathbf{A}^{-1} =
\begin{bmatrix}
\mathbf{A} {11}^{-1} & \mathbf{A} {12}^{-1} \
\mathbf{A} {21}^{-1} & \mathbf{A} {22}^{-1}
\end{bmatrix}$,则有:- $\mathbf{A} {11}^{-1} = (\mathbf{A} {11} - \mathbf{A} {12}\mathbf{A} {22}^{-1}\mathbf{A}_{21})^{-1}$;
- $\mathbf{A} {12}^{-1} = -\mathbf{A} {11}^{-1}\mathbf{A} {12}\mathbf{A} {22}^{-1} = -\mathbf{A} {11}^{-1}\mathbf{A} {12}\mathbf{A}_{22}$;
- $\mathbf{A} {22}^{-1} = (\mathbf{A} {22} - \mathbf{A} {21}\mathbf{A} {11}^{-1}\mathbf{A}_{12})^{-1}$;
- $\mathbf{A} {21}^{-1} = -\mathbf{A} {22}^{-1}\mathbf{A} {21}\mathbf{A} {11}^{-1} = -\mathbf{A} {22}^{-1}\mathbf{A} {21}\mathbf{A}_{11}^{-1}$。
3. 常用的矩阵变换
3.1 LU 分解
对于任何非奇异 $n \times n$ 矩阵 $\mathbf{A}$,存在某个置换矩阵 $\mathbf{P}$,使得 $\mathbf{PA} = \mathbf{LU}$,其中 $\mathbf{L}$ 是主对角线为 1 的下三角矩阵,$\mathbf{U}$ 是上三角矩阵。
3.2 Cholesky 分解
对于任何对称半正定矩阵 $\mathbf{A}$,存在下三角矩阵 $\mathbf{L}$,使得 $\mathbf{A} = \mathbf{LL}^T$。
3.3 QR 分解
对于任何 $m \times n$ 矩阵 $\mathbf{A}$($m \geq n$),存在 $m \times m$ 酉矩阵 $\mathbf{Q}$ 和 $m \times n$ 上三角矩阵 $\mathbf{R}$,使得 $\mathbf{A} = \mathbf{QR}$。该结果的证明基于 Householder 变换,通过找到一系列 $n$ 个酉矩阵 $\mathbf{Q}_1, \cdots, \mathbf{Q}_n$,使得 $\mathbf{Q}_n \cdots \mathbf{Q}_1\mathbf{A} = \mathbf{R}$。
4. 矩阵导数
4.1 向量导数
设 $f(\cdot)$ 是 $p$ 维向量 $\mathbf{x} = [x_1, \cdots, x_p]^T$ 的标量函数,$f(\cdot)$ 关于 $x_k$ 的偏导数记为 $\frac{\partial f}{\partial x_k}$,$f(\cdot)$ 关于 $\mathbf{x}$ 的导数为:
[
\frac{\partial f}{\partial \mathbf{x}} = \nabla f(\mathbf{x}) =
\begin{bmatrix}
\frac{\partial f}{\partial x_1} \
\vdots \
\frac{\partial f}{\partial x_p}
\end{bmatrix}^T
]
也称为 $f(\cdot)$ 在 $\mathbf{x}$ 处的梯度。$f(\cdot)$ 的微分可写成 $df = \sum_{k = 1}^{p} \frac{\partial f}{\partial x_k}dx_k = \nabla f(\mathbf{x})^T d\mathbf{x}$,其中 $d\mathbf{x} = [dx_1, \cdots, dx_p]^T$。
例如,对于线性形式 $f(\mathbf{x}) = \mathbf{a}^T\mathbf{x}$,$\nabla f(\mathbf{x}) = \mathbf{a}$;对于二次形式 $f(\mathbf{x}) = \mathbf{x}^T\mathbf{A}\mathbf{x}$,$\nabla_{\mathbf{x}}f = 2\mathbf{A}\mathbf{x}$。
对于向量函数 $\mathbf{f}(\mathbf{x}) = [f_1(\mathbf{x}), \cdots, f_q(\mathbf{x})]$,其中 $f_1(\cdot), \cdots, f_q(\cdot)$ 是 $\mathbf{x}$ 的标量函数,其梯度称为 $\mathbf{f}(\cdot)$ 的雅可比矩阵,定义为:
[
D\mathbf{f}(\mathbf{x}) =
\begin{bmatrix}
\nabla f_1(\mathbf{x})^T \
\vdots \
\nabla f_q(\mathbf{x})^T
\end{bmatrix}
=
\begin{bmatrix}
\frac{\partial f_j}{\partial x_i}(\mathbf{x})
\end{bmatrix}
]
4.2 矩阵导数
4.2.1 标量情况
若 $Y = F(\mathbf{X})$ 是标量函数,首先使用 $\text{vec}(\cdot)$ 记号将 $\mathbf{X}$ 转换为 $pq$ 维向量 $\text{vec}(\mathbf{X}) = [\mathbf{x}
1^T, \cdots, \mathbf{x}_q^T]^T$,$F(\mathbf{X})$ 的微分通过将 $F(\cdot)$ 视为 $\text{vec}(\mathbf{X})$ 的函数得到,导数定义为:
[
\frac{\partial F}{\partial \mathbf{X}} =
\begin{bmatrix}
\frac{\partial F}{\partial x
{ij}}
\end{bmatrix}
]
4.2.2 矩阵情况
若 $Y = F(\mathbf{X})$ 是 $r \times s$ 矩阵,$Y$ 关于 $x_{mn}$ 的偏导数是 $r \times s$ 矩阵 $\frac{\partial Y}{\partial x_{mn}} =
\begin{bmatrix}
\frac{\partial F_{ij}(\mathbf{X})}{\partial x_{mn}}
\end{bmatrix}$,$Y$ 关于 $\mathbf{X}$ 的偏导数是 $pr \times qs$ 矩阵:
[
\frac{\partial Y}{\partial \mathbf{X}} =
\begin{pmatrix}
\frac{\partial Y}{\partial x_{11}} & \cdots & \frac{\partial Y}{\partial x_{1q}} \
\vdots & \ddots & \vdots \
\frac{\partial Y}{\partial x_{p1}} & \cdots & \frac{\partial Y}{\partial x_{qq}}
\end{pmatrix}
]
4.3 矩阵导数的例子
4.3.1 独立元素情况
假设矩阵 $\mathbf{X} = [x_{ij}]$ 由 $pq$ 个独立变量组成:
- 设 $\mathbf{X}$ 是 $p \times p$ 矩阵,$f(\mathbf{X}) = \text{tr}(\mathbf{X}) = \sum_{k} x_{kk}$,则 $\frac{\partial}{\partial x_{mn}}(\text{tr}(\mathbf{X})) = \delta_{mn}$,$\frac{\partial}{\partial \mathbf{X}}\text{tr}(\mathbf{X}) = \mathbf{I}
p = \frac{\partial}{\partial \mathbf{X}}\text{tr}(\mathbf{X}^T)$。
- $f(\mathbf{X}) = \text{tr}(\mathbf{AX})$,则 $\frac{\partial f}{\partial x
{mn}} = a_{nm}$,$\frac{\partial f}{\partial \mathbf{X}} = \mathbf{A}^T$。
- 若 $g(\mathbf{X}) = g(f(\mathbf{X}))$,其中 $f(\cdot)$ 是 $\mathbf{X}$ 的标量函数,$g(y)$ 是 $y$ 的可微标量函数,则 $\frac{\partial g}{\partial \mathbf{X}} = \frac{dg}{dy}(f(\mathbf{X}))\frac{\partial f}{\partial \mathbf{X}}$。例如,$\frac{\partial}{\partial \mathbf{X}}e^{\text{tr}(\mathbf{XA})} = e^{\text{tr}(\mathbf{XA})}\mathbf{A}^T$。
- $f(\mathbf{X}) = \det(\mathbf{X}) = |\mathbf{X}|$,则 $\frac{\partial |\mathbf{X}|}{\partial \mathbf{X}} = |\mathbf{X}|\mathbf{X}^{-T}$。
- 若 $f(\mathbf{X}) = g(H(\mathbf{X}))$,其中 $g(Y)$ 是矩阵 $Y$ 的标量函数,$H(\mathbf{X})$ 是 $\mathbf{X}$ 的可微矩阵函数,则 $\frac{\partial f(\mathbf{X})}{\partial x_{\alpha\beta}} = \sum_{i,j} \frac{\partial g}{\partial y_{ij}}(H(\mathbf{X}))\frac{\partial y_{ij}}{\partial x_{\alpha\beta}}$。
4.3.2 对称矩阵情况
当矩阵元素不独立时,规则会发生变化。以对称矩阵 $\mathbf{X} = [x_{ij}]$ 为例,$\frac{\partial \mathbf{X}}{\partial x_{ij}} = \mathbf{J}
{ij} + \mathbf{J}
{ji} - \text{diag}[\mathbf{J}
{ij}]$。若 $f(\mathbf{X})$ 是对称矩阵 $\mathbf{X}$ 的标量函数,则:
[
\frac{\partial f(\mathbf{X})}{\partial \mathbf{X}} =
\left[
\frac{\partial f(\mathbf{Y})}{\partial \mathbf{Y}} + \frac{\partial f(\mathbf{Y})}{\partial \mathbf{Y}^T} - \text{diag}
\left[
\frac{\partial f(\mathbf{Y})}{\partial \mathbf{Y}}
\right]
\right]
{\mathbf{Y} = \mathbf{X}}
]
例如,$\frac{\partial}{\partial \mathbf{X}}\text{tr}(\mathbf{AX}) = \mathbf{A} + \mathbf{A}^T$;$\frac{\partial}{\partial \mathbf{X}}|\mathbf{X}| = |\mathbf{X}|(2\mathbf{X}^{-1} - \text{diag}[\mathbf{X}^{-1}])$;$\frac{\partial}{\partial \mathbf{X}}|\mathbf{AXB}| = |\mathbf{AXB}|(\mathbf{A}^T(\mathbf{AXB})^{-T}\mathbf{B}^T + \mathbf{B}(\mathbf{AXB})^{-1}\mathbf{A} - \text{diag}[\mathbf{B}(\mathbf{AXB})^{-1}\mathbf{A}])$。
以下是一个简单的 mermaid 流程图,展示矩阵导数的计算流程:
graph TD;
A[判断矩阵类型] --> B{独立元素矩阵};
B -- 是 --> C[按独立元素规则计算导数];
B -- 否 --> D{对称矩阵};
D -- 是 --> E[按对称矩阵规则计算导数];
D -- 否 --> F[考虑其他依赖情况计算导数];
通过以上对矩阵代数与矩阵函数的详细介绍,我们可以看到矩阵在数学和其他领域中的广泛应用。矩阵的各种运算和性质为解决实际问题提供了强大的工具,而矩阵导数则在优化、机器学习等领域有着重要的应用。希望这些内容能帮助大家更好地理解和应用矩阵相关知识。
5. 矩阵导数的应用
5.1 多元正态分布参数的最大似然估计
矩阵导数在多元分析中有着直接的应用,最常见的例子是从给定的数据样本中估计 $p$ 维多元正态分布 $N(\mu, \Sigma)$ 的参数。设 $x_1, \cdots, x_n$ 是来自该分布的样本,其似然函数为:
[
L = \prod_{t = 1}^{n} f(x_t; \mu, \Sigma) = \prod_{t = 1}^{n} \left[(2\pi)^{-\frac{p}{2}} |\Sigma|^{-\frac{1}{2}} \exp\left(-\frac{1}{2}(x_t - \mu)^T \Sigma^{-1} (x_t - \mu)\right)\right]
]
通常使用对数似然函数 $\mathcal{L} = \log L$ 进行计算,其表达式为:
[
\mathcal{L} = \log L = \frac{np}{2} \log 2\pi - \frac{n}{2} \log |\Sigma| - \frac{1}{2} \sum_{t = 1}^{n} (x_t - \mu)^T \Sigma^{-1} (x_t - \mu)
]
通过求解 $\frac{\partial \mathcal{L}}{\partial \mu} = 0$ 和 $\frac{\partial \mathcal{L}}{\partial \Sigma} = O$ 来估计 $\mu$ 和 $\Sigma$。
具体操作步骤如下:
1. 对 $\mu$ 求偏导:
- 对 $\mathcal{L}$ 关于 $\mu$ 求偏导,可得 $\sum_{t = 1}^{n} (x_t - \mu) = 0$。
- 解这个方程,得到样本均值 $\hat{\mu} = \frac{1}{n} \sum_{t = 1}^{n} x_t$。
2. 对 $\Sigma$ 求偏导:
- 利用之前介绍的矩阵导数公式,对 $\mathcal{L}$ 关于 $\Sigma$ 求偏导。
- 经过一系列计算,得到 $2\Sigma^{-1} - \text{diag}[\Sigma^{-1}] - 2\Sigma^{-1}S\Sigma^{-1} + \text{diag}[\Sigma^{-1}S^{-1}\Sigma^{-1}] = O$。
- 化简后得到 $\Sigma^{-1} (I_p - S\Sigma^{-1}) = O$,从而得到样本协方差矩阵 $\hat{\Sigma} = S = \frac{1}{n} \sum_{t = 1}^{n} (x_t - \hat{\mu})(x_t - \hat{\mu})^T$。
5.2 因子模型参数的估计
因子模型参数的估计在许多教材中都有介绍,其对数似然函数与多元正态分布的对数似然函数形式基本相同,只是 $\Sigma$ 由 $\Sigma = \Psi + \Lambda\Phi\Lambda^T$ 给出,其中 $\Psi$ 是对角协方差矩阵。
具体操作步骤如下:
1. 对 $\Lambda$ 求偏导:
- 利用之前的矩阵导数公式,计算 $\frac{\partial}{\partial \Lambda} \log |\Lambda\Phi\Lambda^T + \Psi| = 2(\Lambda\Phi\Lambda^T + \Psi)^{-T} \Lambda\Phi$。
2. 对 $\Phi$ 求偏导:
- 计算 $\frac{\partial}{\partial \Phi} \log |\Lambda\Phi\Lambda^T + \Psi| = \text{diag}[(\Lambda\Phi\Lambda^T + \Psi)^{-1}]$。
3. 对 $\Psi$ 求偏导:
- 计算 $\frac{\partial}{\partial \Psi} \log |\Lambda\Phi\Lambda^T + \Psi| = \text{diag}[(\Lambda\Phi\Lambda^T + \Psi)^{-1}]$。
5.3 主成分分析结果的应用
矩阵导数在主成分分析(PCA)中也有应用。例如,对于给定的 $p \times p$ 半正定矩阵 $\Omega$,秩为 $r$,求函数 $\epsilon(Y) = \text{tr}(\Omega - Y)^2$ 的最小值,其中 $Y$ 是秩为 $q \leq p$ 的半正定矩阵。
具体操作步骤如下:
1. 找到使 $\epsilon(Y)$ 最小的 $Y$:
- 当 $Y = \sum_{k = 1}^{q} \lambda_k^2 v_k v_k^T$ 时,$\epsilon(Y)$ 取得最小值,其中 $\lambda_k^2$ 和 $v_k$ 是 $\Omega$ 的前 $q$ 个最大特征值和对应的特征向量。
- 这样定义的矩阵 $Y$ 是 $\Omega$ 的最佳近似。
以下是一个表格,总结了上述应用中的关键参数和公式:
| 应用场景 | 参数 | 关键公式 |
| — | — | — |
| 多元正态分布参数估计 | $\mu, \Sigma$ | $\hat{\mu} = \frac{1}{n} \sum_{t = 1}^{n} x_t$,$\hat{\Sigma} = S = \frac{1}{n} \sum_{t = 1}^{n} (x_t - \hat{\mu})(x_t - \hat{\mu})^T$ |
| 因子模型参数估计 | $\Lambda, \Phi, \Psi$ | $\frac{\partial}{\partial \Lambda} \log |\Lambda\Phi\Lambda^T + \Psi| = 2(\Lambda\Phi\Lambda^T + \Psi)^{-T} \Lambda\Phi$ 等 |
| 主成分分析 | $\Omega, Y$ | $Y = \sum_{k = 1}^{q} \lambda_k^2 v_k v_k^T$ |
6. 线性系统和特征值问题的常用算法
6.1 直接方法
求解线性系统 $Ax = b$ 和特征值问题 $Ax = \lambda x$ 有多种算法,主要分为直接方法和迭代方法。直接方法主要基于分解,包括奇异值分解(SVD)、LU 分解和 QR 分解。
6.2 迭代方法
6.2.1 特征值问题
迭代方法基于 Krylov 子空间。给定 $m \times m$ 矩阵 $A$ 和非零 $m$ 维向量 $y$,Krylov 序列为 $y, Ay, \cdots, A^{n - 1}y$,Krylov 子空间 $K_n(A, y)$ 是由该序列张成的空间。
常用的迭代算法有 Lanczos 方法和 Arnoldi 方法:
-
Lanczos 方法
:适用于 Hermitian 矩阵(实对称矩阵),通过构造正交基 $Q_n = [q_1, \cdots, q_n]$,将算子 $A$ 投影到 $K_n$ 上,得到 $AQ_n = Q_nH_n$,其中 $H_n$ 是三角矩阵。
- 具体步骤如下:
1. 初始化 $q_1$(令 $q_0 = 0$)。
2. 在每一步迭代中,根据 $\beta_jq_{j + 1} = Aq_j - \beta_{j - 1}q_{j - 1} - \alpha_jq_j$ 计算 $\alpha_j, \beta_j$ 和 $q_{j + 1}$。
3. 当 $\beta_k = 0$ 时,算法停止。
-
Arnoldi 方法
:适用于非 Hermitian 矩阵,$H_n$ 是上 Hessenberg 矩阵。
- 具体步骤如下:
1. 初始化 $q_1$。
2. 在每一步迭代中,根据 $h_{j + 1, j}q_{j + 1} = Aq_j - \sum_{i = 1}^{j} h_{ij}q_i$ 计算 $h_{ij}$ 和 $q_{j + 1}$。
3. 经过 $k$ 步后,得到 $AQ_k = Q_kH_k + h_{k + 1, k}q_{k + 1}e_k^T$。
6.2.2 线性系统
求解线性系统的简单迭代方法是 Jacobi 迭代,将线性系统 $Ax = b$ 转化为 $x = \hat{A}x + \hat{b}$,其中 $\hat{A} = I_m - D^{-1}A$,$\hat{b} = D^{-1}b$,$D$ 是 $A$ 的对角矩阵或单位矩阵。
其他常用的迭代方法包括 FOM(Full Orthogonalisation Method)和 GMRES(Generalised Minimum Residual Method):
-
FOM 算法
:基于 Arnoldi 正交化过程,寻找 $x_n - x_0$ 使得 $(b - Ax_n)$ 与 Krylov 子空间 $K_n(A, r_0)$ 正交。
- 具体步骤如下:
1. 初始化 $x_0$,计算初始残差 $r_0 = b - Ax_0$。
2. 令 $r_0 = \beta q_1$,其中 $\beta = |r_0|
2$。
3. 通过 Arnoldi 过程得到 $Q_k$ 和 $H_k$。
4. 近似解 $x_k = x_0 + Q_k y_k = x_0 + \beta Q_k H_k^{-1} Q_k^T q_1 = x_0 + \beta Q_k H_k^{-1} e_1$,其中 $e_1 = Q_k^T q_1$。
-
GMRES 算法
:寻找 $x_n - x_0$ 使得 $b - Ax_n$ 与 $AK_n$ 正交,这等价于最小化 $|Ax_n - b|_2$。
- 具体步骤如下:
1. 初始化 $x_0$,计算初始残差 $r_0 = b - Ax_0$。
2. 通过 Arnoldi 过程得到 $Q
{k + 1}$ 和 $H_k$。
3. 求解 $z^
= \arg\min_{z} |\beta q_1 - Q_{k + 1} H_k z|_2$。
4. 近似解 $x_k = x_0 + Q_k z^
$。
以下是一个 mermaid 流程图,展示线性系统迭代求解的流程:
graph TD;
A[初始化 x0] --> B[计算 r0 = b - Ax0];
B --> C{选择迭代方法};
C -- Jacobi 迭代 --> D[更新 xn+1 = Axn + b];
C -- FOM 算法 --> E[Arnoldi 正交化];
E --> F[计算近似解 xk];
C -- GMRES 算法 --> G[Arnoldi 正交化];
G --> H[最小化残差求 z*];
H --> I[计算近似解 xk];
D --> J{判断收敛};
F --> J;
I --> J;
J -- 是 --> K[输出解 x];
J -- 否 --> L[继续迭代];
L --> D;
L --> E;
L --> G;
综上所述,矩阵代数与矩阵函数涵盖了丰富的内容,从基本的矩阵运算到复杂的矩阵导数和应用,再到线性系统和特征值问题的求解算法。这些知识在数学、物理、工程、计算机科学等多个领域都有着广泛的应用。通过深入理解和掌握这些内容,我们可以更好地解决实际问题,推动相关领域的发展。希望本文能为读者提供一个全面的矩阵知识体系,帮助大家在学习和研究中取得更好的成果。
超级会员免费看
1902

被折叠的 条评论
为什么被折叠?



