[1] 矩阵导数定义
需要用到矩阵的一些求导技术,假设对于一个大小为 m×n m × n 的矩阵 A A ,我们存在这样的一个映射 ( f:Rm×n→R f : R m × n → R ,即他可以吧矩阵A映射到一个实数),接下来我们定义 f f 对矩阵 的导数如下:
∇Af(A)=⎡⎣⎢⎢⎢⎢∂f∂A11⋮∂f∂An1⋯⋱⋯∂f∂A1n⋮∂f∂Ann⎤⎦⎥⎥⎥⎥ ∇ A f ( A ) = [ ∂ f ∂ A 11 ⋯ ∂ f ∂ A 1 n ⋮ ⋱ ⋮ ∂ f ∂ A n 1 ⋯ ∂ f ∂ A n n ]
而一般来说, f(A) f ( A ) 会定义为矩阵的迹(因为我们可以使用迹的技巧对矩阵进行各种方便的求导)。
[2] 矩阵的迹
对于一个n阶方阵A的迹被定义为方阵A的主对角线的元素之和,通常对方阵的求迹操作写成 trA t r A ,于是我们有
trA=∑i=1nAii t r A = ∑ i = 1 n A i i
开篇论文中写到的 trace t r a c e 就是对矩阵求迹的意思,接下来介绍下关于迹的一些比较有用的性质:
1)trABC=trBCA=trCBA 1 ) t r A B C = t r B C A = t r C B A
也就是对多个矩阵的相乘求迹时,矩阵的顺序是可以调换的(注意有个循环的顺序在里面),这个性质很有用可以结合后面的公式方便地对矩阵进行求导。
2)t