在之前写的上百篇机器学习博客中,不时会使用矩阵向量求导的方法来简化公式推演,但是并没有系统性的进行过讲解,因此让很多朋友迷惑矩阵向量求导的具体过程为什么会是这样的。这里准备用几篇博文来讨论下机器学习中的矩阵向量求导,今天是第一篇。
本系列主要参考文献为维基百科的Matrix Caculas和张贤达的《矩阵分析与应用》。
1. 矩阵向量求导引入
在高等数学里面,我们已经学过了标量对标量的求导,比如标量yy对标量xx的求导,可以表示为∂y∂x∂y∂x。
有些时候,我们会有一组标量yi,i=1,2,...,myi,i=1,2,...,m来对一个标量xx的求导,那么我们会得到一组标量求导的结果:
∂yi∂x,i=1,2.,,,m∂yi∂x,i=1,2.,,,m
如果我们把这组标量写成向量的形式,即得到维度为m的一个向量yy对一个标量xx的求导,那么结果也是一个m维的向量:∂y∂x∂y∂x
可见,所谓向量对标量的求导,其实就是向量里的每个分量分别对标量求导,最后把求导的结果排列在一起,按一个向量表示而已。类似的结论也存在于标量对向量的求导,向量对向量的求导,向量对矩阵的求导,矩阵对