AndrewNg - 线性回归【2】正规方程组

最新推荐文章于 2023-05-21 21:21:07 发布

Victor-Gun

最新推荐文章于 2023-05-21 21:21:07 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏： Machine Learning Algorithms Math 文章标签：矩阵最小二乘机器学习

本文链接：https://blog.youkuaiyun.com/Victor_Gun/article/details/45268785

Machine Learning 同时被 3 个专栏收录

5 篇文章

订阅专栏

Algorithms

4 篇文章

订阅专栏

Math

2 篇文章

订阅专栏

这篇博客介绍了线性回归中的正规方程组，通过矩阵求导的角度来探讨最小二乘问题。文章详细阐述了如何利用矩阵导数直接求解线性回归参数，提供了一种非迭代的解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AndrewNg - 线性回归【2】正规方程组

梯度下降法是用来计算 $J(\theta)$ 的惯用方法之一，不过通常我们可以通过另一途径取代这种迭代算法。这样思考，如果我们直接对 $J$ 求 $\theta$ 的导数并使其为0，如果可以直接解出 $\theta$ 那不是爽歪歪。

1.矩阵求导

对于函数 $f\ :\ \mathbb{R}^{m\times n}\mapsto\mathbb{R}$ ，即从 $m\times n$ 矩阵映射到实数的 $f$ ，定义 $f$ 对于 $A$ 的导数为：

\nabla A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial \partial A 11 ⋮ \partial \partial A m 1 \dots ⋱ \dots \partial \partial A 1 n ⋮ \partial \partial A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

$\nabla_Af(A)=\begin{bmatrix} \frac{\partial}{\partial A_{11}}&\cdots&\frac{\partial}{\partial A_{1n}} \\ \vdots&\ddots&\vdots \\ \frac{\partial}{\partial A_{m1}}&\cdots&\frac{\partial}{\partial A_{mn}} \\ \end{bmatrix}$
举个栗子，假如

A=[A11A21A12A22] $A=\begin{bmatrix}A_{11}&A_{12}\\A_{21}&A_{22}\end{bmatrix}$ ，

f(A)=32A11+5A212+A21A22 $f(A)=\frac{3}{2}A_{11}+5A_{12}^2+A_{21}A_{22}$ ：

\nabla A f (A) = ⎡ ⎣ 3 2 A 22 10 A 12 A 21 ⎤ ⎦ .

$\nabla_Af(A)=\begin{bmatrix}\frac{3}{2}&10A_{12}\\A_{22}&A_{21}\end{bmatrix}.$
同时我们还要引进一个迹的概念：

trA=∑ni=1Aii $trA=\sum_{i=1}^{n}A_{ii}$ 。当矩阵

A、B、C、D $A、B、C、D$ 满足一些简单的条件时，他们的迹有一些性质值得一提：

(1) t r A B = t r B A, (2) t r A B C = t r C A B = t r B C A, (3) t r A B C D = t r D A B C = t r C D A B = t r B C D A, (4) t r A = t r A T, (5) t r (A + B) = t r A + t r B, (6) t r a A = a t r A .

$\begin{align} &(1)trAB=trBA,\\ &(2)trABC=trCAB=trBCA,\\ &(3)trABCD=trDABC=trCDAB=trBCDA,\\ &(4)trA=trA^T,\\ &(5)tr(A+B)=trA+trB,\\ &(6)traA=atrA. \end{align}$
而相应的，矩阵求导和迹结合起来还有一些性质：

(1) \nabla A t r A B = B T, (2) \nabla A T f (A) = (\nabla A f (A)) T, (3) \nabla A t r A B A T C = C A B + C T A B T, (4) \nabla A | A | = | A | (A - 1) T

$\begin{align} &(1)\nabla_AtrAB=B^T,\\ &(2)\nabla_{A^T}f(A)=(\nabla_Af(A))^T,\\ &(3)\nabla_AtrABA^TC=CAB+C^TAB^T,\\ &(4)\nabla_A|A|=|A|(A^{-1})^T \end{align}$

2.换个角度看最小二乘

给定一组训练集，定义矩阵 $X$ 为 $m*n$ 阶的矩阵（实际上算上 $\theta_0$ 截距是 $m*n+1$ 阶），每行是一个训练样例：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ — — — — — — (x (1)) T (x (2)) T ⋮ (x (m)) T — — — — — — ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$X=\begin{bmatrix} ——&(x^{(1)})^T&—— \\ ——&(x^{(2)})^T&—— \\ &\vdots& \\ ——&(x^{(m)})^T&—— \\ \end{bmatrix}$
同时

y⃗ $\vec{y}$ 是

X $X$ 对应的m维样本分类结果向量：

y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\vec{y}=\begin{bmatrix} y^{(1)}\\ y^{(2)}\\ \vdots \\ y^{(m)}\\ \end{bmatrix}$
所以根据上一节我们有

hθ(x(i))=(x(i))Tθ $h_\theta(x^{(i)})=(x^{(i)})^T\theta$ ，即：

X θ - y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ (x (1)) T (x (2)) T ⋮ (x (m)) T ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ h θ (x (1)) - y (1) h θ (x (2)) - y (2) ⋮ h θ (x (m)) - y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

$\begin{align} X\theta-\vec{y} &=\begin{bmatrix} (x^{(1)})^T \\ (x^{(2)})^T \\ \vdots \\ (x^{(m)})^T \\ \end{bmatrix}-\begin{bmatrix} y^{(1)}\\ y^{(2)}\\ \vdots \\ y^{(m)}\\ \end{bmatrix}\\ &=\begin{bmatrix} h_\theta(x^{(1)})-y^{(1)}\\ h_\theta(x^{(2)})-y^{(2)}\\ \vdots \\ h_\theta(x^{(m)})-y^{(m)}\\ \end{bmatrix} \end{align}$
因为有

zTz=∑iz2i $z^Tz=\sum_iz_i^2$ ，所以：

1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 = J (θ) .

$\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y})=\frac{1}{2}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2=J(\theta).$
那么现在我们要干的一件事，就变成了最小化

J $J$ （求导取导数为0）：

\nabla θ J (θ) = \nabla θ 1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \nabla θ (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 \nabla θ t r (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 \nabla θ (t r θ T X T X θ - 2 t r y ⃗ T X θ) = 1 2 (X T X θ + X T X θ - 2 X T y ⃗) = X T X θ - X T y ⃗

$\begin{align} \nabla_\theta J(\theta)&=\nabla_\theta\frac{1}{2}(X\theta-\vec{y})^T(X\theta-\vec{y})\\ &=\frac{1}{2}\nabla_\theta(\theta_TX^TX\theta-\theta_TX^T\vec{y}-\vec{y}^TX\theta+\vec{y}^T\vec{y})\\ &=\frac{1}{2}\nabla_\theta tr(\theta_TX^TX\theta-\theta_TX^T\vec{y}-\vec{y}^TX\theta+\vec{y}^T\vec{y})\\ &=\frac{1}{2}\nabla_\theta(tr\theta_TX^TX\theta-2tr\vec{y}^TX\theta)\\ &=\frac{1}{2}(X^TX\theta+X^TX\theta-2X^T\vec{y})\\ &=X^TX\theta-X^T\vec{y} \end{align}$
另

∇θJ(θ)=0 $\nabla_\theta J(\theta)=0$ 则有