机器学习02：多变量线性回归

最新推荐文章于 2024-07-26 21:01:19 发布

原创最新推荐文章于 2024-07-26 21:01:19 发布 · 312 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #深度学习 #人工智能

机器学习专栏收录该内容

10 篇文章

订阅专栏

本文深入探讨了多变量回归模型的概念及应用，包括普通表示和向量表示，并详细讲解了多元梯度下降法及其收敛问题。此外，还介绍了如何通过特征缩放来提高梯度下降法的效率，并对比了梯度下降法与正规方程法的不同之处。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

机器学习——多变量回归

模型

普通表示

$n$ 为特征个数。
$y=\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\,···+\theta_nx_n$
令 $x_0=1$ :
$y=\theta_0x_0+\theta_1x_1+\theta_2x_2+\theta_3x_3+\,···+\theta_nx_n$

向量表示

$\pmb{x}=\left[ \begin{matrix} x_0\\ x_1 \\ x_2 \\ ···\\x_n \end{matrix} \right]\epsilon R^{n+1}\,\,\,\,\,\,$ ， $θ=[θ0θ1θ2⋅⋅⋅θn]ϵRn+1\pmb{\theta}=\left[ \begin{matrix} \theta_0\\ \theta_1 \\ \theta_2 \\ ···\\\theta_n \end{matrix} \right]\epsilon R^{n+1}$ ， $y=θTx\pmb{y} =\pmb{\theta^T}\pmb{x}$

多元梯度下降法

$\left\{ \theta_j:=\theta_j-\alpha J(\pmb{\theta}) \right\} for\,\, every\,\,j=0,1,2...n$
$n = 1$ 时（实际上也是单变量线性回归）：

$r e p e a t :$
$θ0:=θ0−α1m∑i=1m(yi^−yi)θ1:=θ1−α1m∑i=1m(yi^−yi) \theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(\hat{y_i}-y_i) \\ \theta_1:=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m(\hat{y_i}-y_i)$

$n≥1n\geq1$ 时：
$r e p e a t :$
$θ0:=θ0−α1m∑i=1m(yi^−yi)xi0θ1:=θ1−α1m∑i=1m(yi^−yi)xi1⋅⋅⋅θn:=θn−α1m∑i=1m(yi^−yi)xin \theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m(\hat{y_i}-y_i)x_{i0} \\ \theta_1:=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m(\hat{y_i}-y_i)x_{i1}\\···\\ \theta_n:=\theta_n-\alpha\frac{1}{m}\sum_{i=1}^m(\hat{y_i}-y_i)x_{in}$

特征缩放

对于多个特征值，如果这些特征值的数量级差别很大，在不做任何处理的情况下，利用梯度下降法最小化损失函数的过程将收敛很慢，比如下面的情况，对于特征 $x_1$ 和 $x_2$ ：
$\begin{cases} 0<x_1<1000& \\ 1<x_2<3 \end{cases}$
它的收敛过程将非常缓慢。
那么我们如果解决这个问题呢？我们的目的是使每个特征值都尽量保持在同一数量级范围内，因此，可以对每个特征值进行如下操作：
$x_i =\frac{x_i-\mu_i}{s_i}$
参数解释：
$μi\mu_i$ ：所有样本中特征 $x_i$ 的平均值
$s_i$ ：所有样本中特征 $x_i$ 的极差（max-min）

正规方程（Normal）法

梯度下降法中，为了最小化损失函数，每一次的迭代过程都要遍历样本中的各个数据。然而，利用正规方程，我们可以一步到位。
下面看一个例子：

$x_0$	$x_1$	$x_2$	$x_3$	$x_4$	$y$
1	2104	5	1	45	460
1	1416	3	2	40	232
1	1534	3	2	30	315
1	852	2	1	36	178

在这个例子中，一共有4个特征 $x_1,x_2,x_3,x_4$ ，则：
$\pmb{X}=\left[ \begin{matrix} 1 &2104&5&1&45\\ 1 &1416&3&2&40\\ 1 &1534&3&2&30 \\ ···&···&···&···&···\\1 &842&2&1&36 \end{matrix} \right]$
$\pmb{y}=\left[ \begin{matrix}460\\232\\315\\178 \end{matrix}\right]$
利用矩阵的相关运算可求得：
$\pmb{\theta}=(\pmb{X^TX})^{-1}\pmb{X^Ty}$
对于一组含有m个样本，n个特征的数据：
利用 $x_j^{(i)}$ 表示第i个样本的第j个特征值。
$\pmb{x^{i}}=\left[\begin{matrix}x_0^{(i)}\\x_1^{(i)}\\x_2^{(i)}\\···\\x_n^{(i)}\end{matrix}\right]$
$\pmb{X}=\left[\begin{matrix}x^{(1)}\\x^{(2)}\\x^{(3)}\\···\\x^{(m)}\end{matrix}\right]$
$\pmb{y}=\left[\begin{matrix}y^{(1)}\\y^{(2)}\\y^{(3)}\\···\\y^{(m)}\end{matrix}\right]$
则：
$\pmb{\theta}=(\pmb{X^TX})^{-1}\pmb{X^Ty}$