机器学习正规方程（Normal Equation）推导

最新推荐文章于 2021-08-05 17:05:19 发布

原创最新推荐文章于 2021-08-05 17:05:19 发布 · 517 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#线性代数 #机器学习 #matlab

机器学习专栏收录该内容

2 篇文章

订阅专栏

本文介绍如何利用正规方程求解使得代价函数最小化的参数θ=(XTX)−1XTy。通过矩阵求导的方式，推导出θ的具体公式，并提供了另一种变形推导的方法。文中还附上了矩阵求导的常用公式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

利用正规方程求解出使得代价函数最小的参数 $\theta=(X^TX)^{-1}X^Ty$
有两种推导方法

1.矩阵求导

已知代价函数为：
$\begin{aligned} J(\theta)&=\frac{1}{2}(X\theta-y)^2\\ &=\frac{1}{2}(X\theta-y)^T(X\theta-y)\\ &=\frac{1}{2}(\theta^TX^T-y^T)(X\theta-y)\\ &=\frac{1}{2}(\theta^TX^TX\theta-\theta^TX^Ty-X\theta y^T+y^Ty) \end{aligned}$
主要用到的矩阵求导公式：
$\frac{\partial (AB)}{\partial B}=A^T\\ \frac{\partial (AB^T)}{\partial B}=A\\ \frac{\partial (X^TAB)}{\partial B}=2AX$
使 $J(\theta)$ 对 $\theta$ 求导等于0
则有：
$\begin{aligned} \frac{\partial J(\theta)}{\partial\theta}&=\frac{1}{2}\left(\frac{\partial}{\partial\theta}(\theta^TX^TX\theta)-\frac{\partial}{\partial\theta}(\theta^TX^Ty)-\frac{\partial}{\partial\theta}(y^TX\theta)+\frac{\partial}{\partial\theta}(y^Ty)\right)\\ &=\frac{1}{2}(2X^TX\theta-X^Ty-X^Ty)\\ &=X^TX\theta-X^Ty\\ &=0 \end{aligned}$