线性回归(Linear Regression)是利用被陈伟线性回归方程的最小平方函数对一个或多个自变量和应变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为一元回归,大于一个自变量情况的叫做多元回归。
以下就以一元线性回归为例,简要说明何为回归:
如下表1为随机生成的车辆行驶距离(m)与其预计行驶时间(s)的一个数据集(部分)。该数据集中,只有一个自变量——行驶距离和一个因变量——预计行驶时间。因此我们可以将其在二维坐标系中标记出来,如图1所示。利用该数据集,我们的目的是训练出一个线性方程,使得其能无限逼近所有数据。在本例中,训练所得的线性方程绘图后图像如图2所示。
表1 行驶距离与预计行驶时间对应的数据集
车辆行驶距离(m) | 车辆预计行驶时间(s) |
---|---|
1000 | 58 |
735 | 44 |
图1 车辆行驶距离与预计行驶时间对应关系图
图2 线性逼近图示
同时,我们可得线性方程如下:
h0(x)=θ0+θ1⋅x1
多元线性回归:
针对多元线性回归,如果在上述例子中新增一个自变量:沿途经过路口数,那么数据集将如表2所示。
表2 距离、时间与路口数对应关系数据集
行驶距离(m) | 经过路口数(个) | 预计行驶时间(s) |
---|---|---|
1000 | 2 | 58 |
那么,所得到的线性方程应如下所示:
h0(x)=θ0+θ1⋅x1+θ2⋅x2
因此,无论是一元还是多元线性方程,都可以写成如下格式的方程:
h0(x)=∑i=0nθixi=θTX