ANDREW Ng教授的机器学习（Machine Learning）学习笔记（2）-- 线性回归模型（Linear regression model）

最新推荐文章于 2025-04-24 14:14:19 发布

原创最新推荐文章于 2025-04-24 14:14:19 发布 · 660 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法

这篇博客介绍了机器学习中的线性回归模型，作为监督学习的一种，用于连续型分布的预测。通过线性回归算法，如预测住房价格的例子，展示了如何用函数拟合样本集以最小化误差。文章还探讨了模型参数的选择，利用梯度下降方法优化代价函数。

ANDREW Ng教授的机器学习（Machine Learning）学习笔记（2）– 线性回归模型（Linear regression model）

（一）认识线性回归
　　机器学习中，监督式学习算法通常分为分类算法和回归算法。分类算法是对离散型分布的预测，较为经典的算法如支持向量机（SVM）、logistic回归等。回归算法适用于连续型分布的预测，对于给定的样本集，用一个函数去拟合使拟合函数与样本集之间误差最小。
　　线性回归算法形式简单，通过了解这个算法的概况，来了解监督学习过程完整的流程。举个例子，这个例子是预测住房价格的，采用包含波特兰市住房价格的数据集，横坐标为房子的尺寸，纵坐标为房子的实际价格。图中绿色线条就是采用线性回归模型的拟合函数。对于一个新输出的特征量 $x$ （#input，房子大小）给出房子价格的预测 $y$ （#output，预测价格）。监督学习算法最重要的特征是训练样本集中目标变量都有一个“正确答案”。

　　在数据集中，用

m $m$ 表示训练样本的数目，

x $x$ 表示输入变量（也成为特征点），

y $y$ 表示输出变量或者目标变量，

(x(i),y(i)) $(x^{(i)},y^{(i)})$ 表示第ｉ个训练样本。监督学习的工作流程如下图所示，我们将训练样本集（Training Set）输入到学习算法（Learning Algorithm）中，学习算法的工作是输出一个函数

h $h$ ，代表假设（hypothesis）。

h $h$ 是一个从特征变量到输出变量的映射。当我们设计学习算法时，需要考虑的是如何得到假设

h $h$ 。

　　单变量线性回归是假定特征变量只有一个，预测值与样本特征之间的关系是线性的，那么假设函数

h=θ0+θ1x1 $h=\theta_0+\theta_1x_1$ （

θ0、θ1为模型参数 $\theta_0、\theta_1为模型参数$ ）。
　　
（二）线性回归模型
　　为选取模型参数

θ0、θ1 $\theta_0、\theta_1$ ，我们希望预测函数的值与目标变量的值之间的差的平方最小，其数学表达是

m i n i m i z e (1 2 m \sum 1 m (h θ (x i) - y i) 2))

$minimize(\frac{1}{2m}\sum_1^m(h_\theta(x^i)-y^i)^2))$ 其中，

h=θ0+θ1x1 $h=\theta_0+\theta_1x_1$ 。定义一个代价函数

J(θ0,θ1) $J(\theta_0,\theta_1)$

J (θ 0, θ 1) = 1 2 m \sum 1 m (h θ (x i) - y i) 2)

$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_1^m(h_\theta(x^i)-y^i)^2)$ ，此代价函数也叫平方误差函数，在后面学习的算法中，我们会遇到其他的代价函数，但是平方误差函数在大多数线性回归问题中都是合理的。假设函数

hθ(x) $h_\theta(x)$ 是关于特征变量

x $x$ 的函数，而代价函数

J(θ0,θ1) $J(\theta_0,\theta_1)$ 是关于模型参数

θ $\theta$ 的函数，若

θ0=0 $\theta_0=0$ ，那么代价函数为单变量函数，其图像如下图左所示。若代价函数含两个变量，其图像如下图右所示。

　　若预测函数与多个特征量有关，如在预测房价的例子中，房价除了与房屋尺寸有关，还有可能与卧室数量、建造年限、地理位置等因素有关，此时，该模型便是多特征量线性回归模型，其假设函数

h=θ0+θ1x1+θ2x2+⋯+θnxn $h=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$ 。假设函数的向量化表示方法为

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ x 0 x 1 x 2 \dots x n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ (x 0 = 1) ， θ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ θ 0 θ 1 θ 2 \dots θ n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ， h = θ T x

$x=\begin{bmatrix} x_0 \\ x_1 \\ x_2 \\ \cdots \\ x_n \end{bmatrix}(x_0=1)， \theta=\begin{bmatrix} \theta_0 \\ \theta_1 \\ \theta_2 \\ \cdots \\ \theta_n \end{bmatrix}，h=\theta^Tx$

（三）模型参数的选取
　　使用梯度下降方法来是代价函数最小。梯度下降是一种很常用的算法，它不仅被用于线性回归，还被应用于机器学习的其他领域。使代价函数最小化的梯度下降算法的要点是：假设函数 $h=\theta_0+\theta_1x_1$ ，初始化模型参数 $\theta_0、\theta_1$ ，接着让 $\theta_0、\theta_1$ 以一定规律变化降低 $J(\theta_0,\theta_1)$ 直到代价函数取最小值。梯度下降的数学表达是

θ j = θ j - α \partial \partial θ j J (θ 0, θ 1)

$\theta_j=\theta_j-\alpha\frac{\partial }{\partial\theta_j}J(\theta_0,\theta_1)$ 梯度下降算法中，“=”是赋值运算符而不是等于号，

α $\alpha$ 表示学习速率，如果

α $\alpha$ 很大，那么函数很有可能不会收敛。在更新模型参数时，假定模型参数有两个

θ0、θ1 $\theta_0、\theta_1$ ，正确的更新顺序是

t e m p 0 : = θ 0 - α \partial \partial θ 0 J (θ 0, θ 1)

$temp0:=\theta_0-\alpha\frac{\partial }{\partial\theta_0}J(\theta_0,\theta_1)$

t e m p 1 : = θ 1 - α \partial \partial θ 1 J (θ 0, θ 1)

$temp1:=\theta_1-\alpha\frac{\partial }{\partial\theta_1}J(\theta_0,\theta_1)$

θ 0 : = t e m p 0

$\theta_0:=temp0$

θ 1 : = t e m p 1

$\theta_1:=temp1$
　　若模型为多变量线性回归模型，假设函数

h=θTx=θ0+θ1x1+θ2x2+⋯+θnxn $h=\theta^Tx=\theta_0+\theta_1x_1+\theta_2x_2+\cdots+\theta_nx_n$ ，梯度下降算法的数学表达是

θ ： = θ - α δ

$\theta：=\theta-\alpha\delta$

δ = 1 m \sum 1 m (h θ (x i) - y i) x i

$\delta=\frac{1 }{m}\sum_1^m(h_\theta(x^i)-y^i)x^i$
　　使用梯度下降算法可以得到局部最优解，这是梯度下降的一个特点，这也解释了当学习速率

α $\alpha$ 保持不变时，梯度下降也可以收敛到局部最低点。
　　除了梯度下降算法，我们还可以使用正规方程。对于某些线性回归模型，用正规方程求解参数

θ $\theta$ 的最优值更好。相对于梯度下降算法是一种迭代算法，正规方程是一种解析算法。其数学表达是

θ = (X T X) - 1 X T y

$\theta=(X^TX)^{-1}X^Ty$ 不同算法特点比较：

梯度下降	正规方程
需选择学习速率 $\alpha$	无需选择学习速率 $\alpha$
需多次迭代	无需迭代
特征量很多时仍可正常工作	需计算 $(X^TX)^{-1}$ ，特征量很多时较慢（ $n<10000$ ）