机器学习多元线性回归模型推导

最新推荐文章于 2024-10-24 22:11:41 发布

原创最新推荐文章于 2024-10-24 22:11:41 发布 · 1.2k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #多元线性回归 #理论推导

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍了多元线性回归模型的推导过程，包括矩阵运算的基础知识、极大似然估计以及概率的基础知识，通过最小二乘法对权重向量进行估计，最终得到了线性回归模型的闭式解。

机器学习多元线性回归模型推导

1 基础知识必备

1.1 线性代数

矩阵的运算

线性代数在数学、物理和计算机方面扮演的角色是非常非常重要，建议大家可以在闲暇时间认真复习复习相关的知识，对于我们理解自己的相关工作以及提升自己非常有用。接下来就简单且“重点”的概括一下矩阵的运算，毕竟在后面的推导以及学习过程中要用到。
定理一 设 $A$ , $B$ , $C$ 均为 $m×nm\times n$ 矩阵， $k$ , $l$ 为数. 则

$A + B$ = $B + A$ ；（加法的交换律）
$(A + B) + C = A + (B + C$ ；（加法的结合律）
$A + 0 = A$ ；（加法单位元的存在性）
$A + (- A) = 0$ ；（加法逆元的存在性）
$1 A = A$ ；
$(k l) A = k (l A)$ ;
$k (A + B) = k A + k B$ ；（数乘对加法的结合律）
$(k + l) A = k A + l A$ ；（数的加法对数乘的分配率）

定理二 设 $A$ , $B$ , $C$ 都是矩阵， $k$ 是数.则在下列各项中有意义的情况下，等式成立.

$(A B) C = A (B C)$ ；（乘法的结合律）
$k (A B) = k (A) B = A (k B)$ ；
$A E = A, E B = B$ ；（乘法单位元的存在性）
$A (B + C) = A B + A C$ ；（乘法对加法的左分配率）
$(A + B) C = A C + B C$ . （乘法对加法的右分配率）

定义设矩阵 $A$ 为 $m×nm\times n$ . 称矩阵 $B$ 为A的转置，记做 $B=A^{T}$ 或 $B = A^{'}$ ,如果 $B$ 是一个 $n×mn\times m$ 矩阵并且对任意 $i=1,2,...,n,j=1,2,...,m,[B]_{ij}=A_{ji}$ ，也就是说，如果
$A=\left[ \begin{matrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots &\vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \\ \end{matrix} \right]$
则
$A^{T}=\left[ \begin{matrix} a_{11} & a_{21} & \cdots & a_{m1} \\ a_{12} & a_{22} & \cdots & a_{m2} \\ \vdots &\vdots & \ddots & \vdots \\ a_{1N} & a_{2n} & \cdots & a_{mn} \\ \end{matrix} \right]$
特别地， $n$ 维列向量
$\alpha=\left[ \begin{matrix} a_{1} \\ a_{2} \\ \vdots \\ a_{n} \\ \end{matrix} \right]$
的转置 $αT\alpha^{T}$ 是一个 $n$ 维行向量， $n$ 维行向量的转置是一个 $n$ 维列向量.

定理三 设 $A$ , $B$ 都是矩阵， $k$ 是数，如果下列等式中的运算都有意义，那么等式成立

$A^{T})^{T}=A$ ;
$A+B)^{T}=A^{T}+B^{T}$ ；
$kA)^{T}=kA^{T}$ ；
$AB)^{T}=B^{T}A^{T}$ ;

1.2 概率论与数理统计

具体的关于推导后面的博文会讲到，主要是极大似然估计以及概率的一些基础知识（很重要）。

2 多元线性回归

给定数据集 $D={(x_1,y_1),(x_2,y_2),...,(x_m.,y_m)}$ ,其中 $xi=(xi1;xi2;...xid),yi∈Rx_i = (x_{i1};x_{i2};...x_{id}),y_i \in R$ .样本由 $d$ 个属性描述，试图得到
$f(x_i)=\omega^{T}x_i +b,使得f(x_i)\simeq y_i$
利用最小二乘法来对 $ω\omega$ 和 $b$ 进行估计，为了便于讨论，将 $ω\omega$ 和 $b$ 吸收入向量形式 $w^=(ω;b)\hat{w}=(\omega ;b)$ ，相应的，把数据集 $D$ 表示为一个 $m×(d+1)m\times (d+1)$ 大小的矩阵 $X$ ，其中每行对应于一个示例，该行前d个元素对应于示例的 $d$ 个属性值，最后一个元素恒置为1，即
$X=\left[ \begin{matrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots &\vdots & \ddots & \vdots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \\ \end{matrix} \right]$
再把标记也写出向量形式 $y=(y_1;y_2;..;y_m)$ ，则有
$ω^∗=argminω^(y−Xω^)T(y−Xω^) \hat{\omega}^{*}=arg min_{\hat{\omega}}(y-X\hat{\omega})^{T}(y-X\hat{\omega})$
令 $Eω^=(y−Xω^)T(y−Xω^)E_{\hat{\omega}}=(y-X\hat{\omega})^{T}(y-X\hat{\omega})$ ，则采用上面矩阵的相关运算可得
$Eω^=(y−Xω^)T(y−Xω^)=(yT−ω^TXT)(y−Xω^)=ω^TXTXω^−ω^TXTy−yTXω^+yTy E_{\hat{\omega}} = (y-X\hat{\omega})^{T}(y-X\hat{\omega}) \\ = (y^{T}-\hat{\omega}^{T}X^{T})(y-X\hat{\omega} )\\ =\hat{\omega}^{T}X^{T} X\hat{\omega}-\hat{\omega}^{T}X^{T}y-y^{T}X\hat{\omega}+y^{T}y$
对上式对 $ω^\hat{\omega}$ 求导
$∂Eω^∂ω^=∂(ω^TXTXω^−ω^TXTy−yTXω^+yTy)∂ω^=2XTXω^−XTy−yTX=2XTXω^−XTy−XTy=2XT(Xω^−y) \frac{\partial E_{\hat{\omega}}}{\partial \hat{\omega}}=\frac{\partial(\hat{\omega}^{T}X^{T} X\hat{\omega}-\hat{\omega}^{T}X^{T}y-y^{T}X\hat{\omega}+y^{T}y)}{\partial \hat{\omega}} \\ = 2X^{T} X\hat{\omega}-X^{T}y-y^{T}X \\ = 2X^{T} X\hat{\omega}-X^{T}y-X^{T}y \\ =2X^{T} (X\hat{\omega}-y)$

令上式为零可得 $ω^\hat{\omega}$ 最优解的闭式解，但是由于涉及矩阵运算逆的运算，比单变量的情形复杂一些，下面做一些讨论：

当 $X^{T}X$ 为满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)时，令上式为零，可得
$ω^∗=(XTX)−1XTy \hat{\omega}^{*}=(X^{T}X)^{-1} X^{T}y$
最终学得的线性回归模型为
$f(xi^)=xi^(XTX)−1XTy f(\hat{x_i})=\hat{x_i}(X^{T}X)^{-1} X^{T}y$
因此在编程中要判断上述条件是否成立，不成立则不能进行运算。
如果 $X^{T}X$ 不是满秩矩阵，则引入正规项(regularization)进行处理，具体的讨论在后面博客中讨论