3、机器学习基础知识——矩阵求导相关知识

最新推荐文章于 2021-10-06 18:28:31 发布

原创最新推荐文章于 2021-10-06 18:28:31 发布 · 308 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习专栏收录该内容

14 篇文章

订阅专栏

本文详细解析了标量、向量、矩阵之间的求导运算，包括标量关于向量、矩阵的求导，向量与矩阵间的相互求导，以及机器学习中常见的求导形式，辅以迹相关的公式，旨在深入理解多元微积分在机器学习中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、标量关于标量 x 的求导：

$\large \frac{\partial y}{\partial x}$

2、向量关于标量 x 的求导：

定义向量 Y：

$\large Y=[y_1,y_2,...,y_n]^T$

向量 Y 关于标量 x 的导数就是 Y 的每个元素分别对 x 进行求导，于是可以得到：

$\large \frac{\partial Y}{\partial x} = \left [ \frac{\partial y_1}{\partial x},\frac{\partial y_2}{\partial x},...,\frac{\partial y_n}{\partial x} \right ]^T$

此时，导数是 Y 向量的正切向量。

2、矩阵 Y 关于标量 x 的求导：

矩阵对标量的求导类似于向量关于标量的求导，也就是矩阵的每个元素分别对标量 x 的求导，可以得到：

$\large \frac{\partial Y}{\partial x} = \begin{pmatrix} \frac{\partial y_1_1}{\partial x}& \frac{\partial y_1_2}{\partial x}& ...& \frac{\partial y_1_n}{\partial x}\\ \frac{\partial y_2_1}{\partial x}& \frac{\partial y_2_2}{\partial x}& ...& \frac{\partial y_2_n}{\partial x}\\ ...& ...& ...& ...\\ \frac{\partial y_n_1}{\partial x}& \frac{\partial y_n_2}{\partial x}& ...& \frac{\partial y_n_n}{\partial x}\end{pmatrix}$

3、向量求导：

3.1、标量关于向量求导：

定义标量 y 关于 x 的向量为：

$\large x=[x_1,x_2,...,x_n]^T$

对向量 x 关于标量 y 的导数为：

$\large \frac{\partial y}{\partial x } = \left [ \frac{\partial y}{\partial x_1},\frac{\partial y}{\partial x_2},...,\frac{\partial y}{\partial x_n} \right ]$

此时的向量为：梯度向量。导数为标量 y 在空间 R^n 的梯度，该空间以 x 为基。

3.2、向量关于向量求导：

向量函数 y ，关于向量 x 的导数即为：

$\large x=[x_1,x_2,...,x_n]^T$

$\large y=[y_1,y_2,...,y_n]^T$

$\large \frac{\partial y}{\partial x} = \begin{pmatrix} \frac{\partial y_1}{\partial x_1}& \frac{\partial y_1}{\partial x_2}& ...& \frac{\partial y_1}{\partial x_n}\\ \frac{\partial y_2}{\partial x_1}& \frac{\partial y_2}{\partial x_2}& ...& \frac{\partial y_2}{\partial x_n}\\ ...& ...& ...& ...\\ \frac{\partial y_n}{\partial x_1}& \frac{\partial y_n}{\partial x_2}& ...& \frac{\partial y_n}{\partial x_n}\end{pmatrix}$

此时矩阵向量叫做：Jacobian矩阵。

3.3、矩阵关于向量求导：

定义矩阵 Y 为：

$\large y=\begin{pmatrix} y_1_1& y_1_2& ...& y_1_n\\ y_2_1& y_2_2& ...& y_2_n\\ ...& ...& ...& ...\\ y_n_1& y_n_2& ...& y_n_n \end{pmatrix}$

向量 x 为：

$\large x=[x_1,x_2,...,x_n]^T$

所以矩阵 y 关于向量 x 的导数为：

$\large \frac{\partial y}{\partial x} = \begin{pmatrix} \frac{\partial y_1_1}{\partial x_1}& \frac{\partial y_1_2}{\partial x_2}& ...& \frac{\partial y_1_n}{\partial x_n}\\ \frac{\partial y_2_1}{\partial x_1}& \frac{\partial y_2_2}{\partial x_2}& ...& \frac{\partial y_2_n}{\partial x_n}\\ ...& ...& ...& ...\\ \frac{\partial y_n_1}{\partial x_1}& \frac{\partial y_n_2}{\partial x_2}& ...& \frac{\partial y_n_n}{\partial x_n}\end{pmatrix}$

4、矩阵求导：

我们一般只考虑标量关于矩阵的导数，即标量 y 关于矩阵 x 的导数，此时的导数矩阵是梯度矩阵：

$\large \frac{\partial y}{\partial x} = \begin{pmatrix} \frac{\partial y}{\partial x_1_1}& \frac{\partial y}{\partial x_2_1}& ...& \frac{\partial y}{\partial x_n_1}\\ \frac{\partial y}{\partial x_2_1}& \frac{\partial y}{\partial x_2_2}& ...& \frac{\partial y}{\partial x_n_2}\\ ...& ...& ...& ...\\ \frac{\partial y}{\partial x_1_n}& \frac{\partial y}{\partial x_2_n}& ...& \frac{\partial y}{\partial x_n_n}\end{pmatrix}$