线性代数之七：矩阵的微分

最新推荐文章于 2025-11-01 11:53:00 发布

原创最新推荐文章于 2025-11-01 11:53:00 发布 · 4.9k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#矩阵 #微分

数学专栏收录该内容

9 篇文章

订阅专栏

向量与矩阵微分基础

1 简介

对于可导实函数f在某点x处的导数，有

f' (x) = lim h \to 0 f ( x + h ) - f ( x ) h

$f'(x)=\lim_{h\to 0}\frac{f(x+h)-f(x)}{h}$
从形式上，则有：

f' (x) \cdot h \approx f (x + h) - f (x)

$f'(x) \cdot h \approx {f(x+h)-f(x)}$
本文将对向量和矩阵微分进行基础性的介绍，补充机器学习中所需要的微分计算基础。

2 $f:R^n \to R$ 函数的微分

2.1 微分形式

对于从向量到标量实数的映射 $f:R^n \to R$

若 $f$ 为可微的，则存在 $x \in R^n$ 以及极小值 $h \in R^n$ ，使得

⟨ d x f, h ⟩ = f (x + h) - f (x) + o h \to 0 (h)

$\langle d_xf,h \rangle = f(x+h)- f(x)+ o_{h \to 0}(h)$
其中

oh→0(h) $o_{h \to 0}(h)$ 为

h $h$ 的高阶无穷小量。

示例：对于 $R^2\to R$ 的函数 $f([x_1,x_2]^T)=3x_1 + x_2^2$ ，对于固定点[a,b]和无穷小量[h1,h2]，有：

f ([a + h 1, b + h 2] T) = f ([a, b] T) + 3 h 1 + 2 b h 2 + h 22

$f([a+h_1,b+h_2]^T) = f([a,b]^T)+3h_1 + 2bh_2 +h_2^2$
因此可得：

⟨ d x f, h ⟩ = d x f (h) = 3 h 1 + 2 b h 2

$\langle d_xf,h \rangle = d_xf(h)=3h_1 + 2bh_2$
进而可得：

d [a, b] f = [3, 2 b] T

$d_{[a,b]}f=[3,2b]^T$

2.2 梯度形式

⟨ ▿ x f, h ⟩ = f (x + h) - f (x) + o h \to 0 (h)

$\langle \triangledown_xf,h \rangle=f(x+h)-f(x)+o_{h \to 0}(h)$
对于2.1中的例子，同样的可导出

▿ [a, b] f = [3, 2 b] T

$\triangledown_{[a,b]}f=[3,2b]^T$

2.3 偏导数

定义：

\partial f \partial x i = lim h \to 0 f ( x 1 , . . , x i - 1 , x i + h , x i + 1 , x n ) - f ( x 1 , . . . x n ) h

$\frac{\partial f}{\partial x_i}=\lim_{h\to 0}\frac{f(x_1,..,x_{i-1},x_i+h,x_{i+1},x_n)-f(x_1,...x_n)}{h}$

针对2.1中的例子有：

▿ [a, b] f = ⎛ ⎝ ⎜ ⎜ ⎜ \partial f \partial x 1 ([a, b]) \partial f \partial x 2 ([a, b]) ⎞ ⎠ ⎟ ⎟ ⎟ = [3, 2 b] T

$\triangledown_{[a,b]}f = \left( \matrix { \frac{\partial f}{\partial x_1}([a,b]) \cr \frac{\partial f}{\partial x_2}([a,b]) }\right) = [3,2b]^T$

3 推广到 $f:R^{n*m} \to R$

可以将 $R^{n*m}$ 的矩阵写作 $R^{nm}$ 的一维向量，然后应用第2节中的公式，因此有：

▿ x f = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial x 1 ⋮ \partial f \partial x n m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\triangledown_xf=\left[\matrix{ \frac{\partial f}{\partial x_1}\cr \vdots \cr \frac{\partial f}{\partial x_{nm}}\cr }\right]$
对其进行重排为n行m列的矩阵：

▿ x f = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial x 11 \dots \partial f \partial x 1 m ⋱ \partial f \partial x n 1 \dots \partial f \partial x n m ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\triangledown_xf=\left[\matrix{ \frac{\partial f}{\partial x_{11}} \cdots \frac{\partial f}{\partial x_{1m}} \cr \ddots \cr \frac{\partial f}{\partial x_{n1}} \cdots \frac{\partial f}{\partial x_{nm}}\cr }\right]$

4 推广到 $f:R^{n} \to R^m$ ，Jacobian

对于 $x \in R^n$ 函数 $f(x)=\left( \matrix { f_1(x) \cr \vdots\cr f_m(x) } \right)$ ，定义函数的导数为Jacobian矩阵：

J (x) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f 1 \partial x 1 ⋮ \partial f m \partial x 1 \partial f 1 \partial x 2 ⋮ \partial f m \partial x 2 \dots ⋱ \dots \partial f 1 \partial x n ⋮ \partial f m \partial x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$J(x)=\left[\matrix{ \frac{\partial f_1}{\partial x_1} & \frac{\partial f_1}{\partial x_2} & \dots & \frac{\partial f_1}{\partial x_n} \cr \vdots & \vdots & \ddots & \vdots \cr \frac{\partial f_m}{\partial x_1} & \frac{\partial f_m}{\partial x_2} & \cdots & \frac{\partial f_m}{\partial x_n} \cr }\right]$

当m=1时，梯度计算如第2节中的方法。
当m=2时，对于函数 $f([y_1,y_2,y_3]^T)=[y_1+2y_2+3y_3,y_1y_2y_3]^T$ 有：

J (y) = [1 y 2 y 3 2 y 1 y 3 3 y 1 y 2]

$J(y)=\left[\matrix{ 1& 2& 3\cr y_2y_3 & y_1y_3 & y_1y_2 }\right]$

6 推广到 $f:R^{n*p} \to R^m$

函数的导数矩阵J为m*n*p的三维矩阵，有

J i j k = \partial f i \partial x j k i = 1.. m, j = 1.. n, k = 1.. p

$J_{ijk} = \frac{\partial f_i}{\partial x_{jk}} i=1..m,j=1..n,k=1..p$

7 链式法则

对于函数 $f:R^n \to R^m$ 与 $g:R^p \to R^n$ ，可以计算 $h=f(g(y))$ 复合函数的导数。使用链式法则，借助于Jacobian矩阵，有

J h (y) = J f (g (y)) \cdot J g (y)

$J_h(y)=J_f(g(y)) \cdot J_g(y)$

下面以函数 $f([x_1,x_2]^T)=3x_1 + x_2^2$ 与 $g([y_1,y_2,y_3]^T)=[y_1+2y_2+3y_3,y_1y_2y_3]^T$ 为例计算f(g(y))的梯度。

分别计算两个函数的梯度：

J f (x) = ▿ x f T = (3 2 x 2)

$J_f(x)=\triangledown_x f^T=(\matrix {3 & 2x_2})$

J g (y) = [1 y 2 y 3 2 y 1 y 3 3 y 1 y 2]

$J_g(y)=\left[\matrix{ 1& 2& 3\cr y_2y_3 & y_1y_3 & y_1y_2 }\right]$

$J_h(y) = [3,2(y_1y_2y_3)] \cdot \left[\matrix{ 1& 2& 3\cr y_2y_3 & y_1y_3 & y_1y_2 }\right] =[3+2y_1y_2^2y_3^2,6+2y_2y_1^2y_3^2,9+2y_3y_1^2y_2^2]^T$

8 常见一元函数导数

线性法则： $(af + bg)'=af'+bg'$
乘法定则： $(fg)'=fg'+f'g$
除法定则： $(\frac{f}{g})'=\frac{f'g-fg'}{g^2}$
倒数定则： $(\frac{1}{g})'=-\frac{g'}{g^2}$
复合函数： $f'(g(x))=f'(g(x))g'(x)$

代数函数的导数：
$(x^n)' = nx^{n-1}$
$|x|' = sgn x$

指对数函数的导数：
$(e^x)'=e^x$
$(a^x)'=a^xlna$
$(lnx)'=x^{-1}$
$log_ax=(xlna)^{-1}$

三角函数的导数：
$(sinx)' = cos\,x$
$(cosx)'= -sin\,x$
$(tanx)'=sec^2\,x$
$(cotx)'=-csc^2x$
$(secx)'=sec\,x\,tan\,x$
$(cscx)'=-csc\,x\,cot\,x$

反三函数的导数：
$(arcsin\,x)'=\frac{1}{\sqrt{1-x^2}}$
$(arccos\,x)'=-\frac{1}{\sqrt{1-x^2}}$
$(arctan\,x)=\frac{1}{1+x^2}$
$(arccot\,x)=-\frac{1}{1+x^2}$
$(arcsec\,x)'=\frac{1}{\sqrt{x^2-1}}$
$(arccsc\,x)'=-\frac{1}{\sqrt{x^2-1}}$