Title: 回归专题-1 | 线线性回归基础
导读
① 线性回归
(又称线性模型),通过一个或者多个预测变量(X)来预测定量结局变量(Y)[1]。
② 目标是建立一个数学公式,将y定义为x变量的函数。统计模型一旦建立,就可以通过对新加入的变量进行预测。
③ 回归模型的建立,需要评估估计模型的性能。也就是说,需要知道通过回归模型预测新加入的变量的准确性如何,准确性越高,说明该模型的构建是成功的。
- 评价模型预测性能的两个常用度量值:
均方根误差
(Root Mean Square Error, RMSE),用来表示模型预测的误差。也就是观察值与模型预测的估计值之间的差异是多少,计算公式为:
RMSE值越小,模型越好R的平方
(也可以称为决定系数),表示的是观察值和预测值之间的相关系数的平方,R2值越大,模型越好
简单线性回归的学习流程
公式
线性回归的数学公式如下:
- 如果有多个预测变量的话,公式则可以写成
y= b0 + b1*x1 + b2*x2 + ... + bn*xn
:- b0 是截距
- b1,b2,…,bn是回归权重或者说是与变量x1,x2,…xn相关的回归系数
- e就是误差(也称为残差),y中能被回归模型解释的那一部分方差
- 下面这幅图很直观的说明了简单回归模型的特点
- 蓝色线使得模型拟合最好
- 截距和斜率(回归权重)用绿色表示
- 残差表示的是每个点到拟合直线的垂直距离
- 可以看到,并不是每个点都落在回归线上,有在回归线上面或者下面的,总之,剩余残差的平均值接近于0。剩余残差的平方和称为
残差平方和
(Residual Sum of Squares, RSS)。拟合回归线周围的点的平均方差叫做