什么是简单线性回归
用统计的方法来得到连续自变量x和因变量y之间的线性关系。和一般线性回归的区别在于只有一个自变量。
华氏温度和摄氏温度之间的关系:
这是一个确定的线性关系,不是我们需要解决的问题。
相对的,我们要解决的问题是关于非确定的,如下所示,因变量y是一千万人中因皮肤癌致死的人数,自变量x是美国49个州的纬度。
从上图中可以看到纬度越高,越往北,由于皮肤癌致死的越少。上图支持了该种假说。纬度和皮肤癌致死人数成反比,但是这种关系不怎么好,看着不像一个线性的。图中的散点表明了一种趋势,也有离散的。因此这不是确定的关系,而是统计上的关系。
还有一些其他的统计上的关系,例如:
- 身高和体重。身高增加体重也会增加,但不是一个确定的线性关系
- 喝了多少酒和血液里的酒精浓度
- …
衡量拟合的好坏程度63280550
对于上图总结的自变量身高和因变量体重之间的线性关系,哪条总结的比较好?
可以用如下方程来表示一条直线:
其中,图中的一点代表一个样本( xi , yi ),即一个学生的身高和体重, xi 表示第i个样本的特征值(自变量), yi 表示第i个样本的实际值(因变量), y^i 表示第i个样本的预测值。
一个点的误差:
衡量一条直线总结其中关系的好坏,需要综合所有的样本点,所以使用均方误差来综合一条直线的误差。然后就可以使用最小二乘方法来找到能使该误差最小的参数 b0,b1 ,从而确定这条最好的直线。
最小二乘方法求解直线方程的参数
求解能使误差Q最小的参数 b0,b1 ,即求解如下的规划模型:
通过Q对 b0,b1 求导置为0,即求解极值
二元一次方程,用克拉默法则可以得到解:
由于是根据最小二乘原则得出的结果,所以一般把这条直线叫做最小二乘回归线。只做了一个假设,这对非确定的关系是一个线性的趋势。
简单线性回归模型
对于如下的一个高校绩点平均和学生入学成绩之间的关系:
我们可以根据最小二乘方法拟合出一条直线 μY=E(Y)=β0+β1x ,叫做总体回归线,即从所有的数据中总结出的直线规律。当然对于每一个学生,可以通过平均绩点来估计其入学测试的分数, E(Yi)=β0+β1xi 。但是很显然,这个分数和该同学实际的分数不一样,存在一些误差 ϵi 。因此另外有一个描述简单线性回归模型的方式: yi=E(Yi)+ϵi=β0+β1xi+ϵi 。
因此,为了得出关于人口参数 β0和β1 的任何结论,我们必须对回归设置中数据的行为进行更多的假设。
- 首先看各绩点的平均值,连接它以后会得到一条直线,把这条直线作为我们预测的关系是否合适?
- 各绩点上的样本点都在直线附近,而且都在3以内,把这些误差绘制成一条曲线,会是一个正态分布吗?
- 各绩点上的样本点差距都类似,那么可以假设它们的方差一样吗?
- 假设一个学生的误差和其他学生的误差无关。
总结如上,我们得到了组成简单线性回归模型的4个条件:
- 因变量的均值 E(Yi) 和 xi 成一个线性的关系
- 误差 ϵi 是相互独立的
- 误差 ϵi 在每个样本点都是正态分布
- 误差 ϵi 在每个样本点的方差 σ2 相等
常见误差方差
上一个例子中我们看到对于每类绩点样本点和平均直线的差距类似,有着相同的方差 σ2 。方差 σ2 是用来量化因变量(y)和平均总体回归线(未知)的偏离程度。研究方差有助于估计回归线最常用的方法有关,即预测一些未来的反应。
对于如下两个温度计AB,都可以测量摄氏温度和华氏温度,分别测量了十天的温度,得到如下的两个温度计的关系图。
温度计B上的点相对A来说,偏离回归方程不多。因此用温度计B来预测华氏温度,和实际的结果偏差不大,而温度计A来说就相差有点多。所以用温度计B来预测更准确。
那么怎么去衡量这个相差程度呢?答案是方差 σ2 。但是方差是一个总体的参数,所以只能去估计方差的值。
估计方差
上图中是IQ的统计图。IQ的平均是100,那么怎么衡量其他人对这个平均值的偏离程度。使用样本方差来估计总体方差:
样本方差的分布为什么是n-1?
简单来说就是样本方差是对总体方差的一个无偏估计,不知道总体的均值,所以损失一个自由度。
均方误差MSE:
因为 yi^=β0+β1xi 有两个未知参数,损失两个自由度,所有分母是n-2。
决定系数,或拟合优度 r2
用来分清自变量和因变量之间的相关关系是否强烈。首先介绍一下用来评价回归直线的3个参数。
- SSR,回归平方和,用来量化回归直线估计的 yi^ 和样本均值或者 y¯ 相差多少
- SSE,残差平方和,计算估计值 yi^ 和实际值 yi 相差多少
- SSTO,总离差平方和,计算实际值 yi 和均值 y¯ 相差多少
举例说明一下自变量和因变量之间的相关关系强弱,对比以上3个参数:
其中SSTO是SSR和SSE的和。对于第一种情况,总偏离大多来自于SSE,而第二种情况大多来自于SSR。
拟合优度的计算
分别计算上述两种情况下的拟合优度,分别为0.065和0.799。
有如下一些结论:
- 拟合优度是一个比例,所以取值范围为在[0,1]
- 如果拟合优度为1,说明SSE为0,也就是残差平方和为0,估计值和实际值一样
- 如果拟合优度为0,说明SSR为0,也就是回归平方和为0,估计出来的回归线是水平的
R²衡量的是回归方程整体的拟合度,是表达因变量与所有自变量之间的总体关系。R²等于回归平方和在总平方和中所占的比率,即回归方程所能解释的因变量变异性的百分比(在MATLAB中,R²=1-“回归平方和在总平方和中所占的比率”)。实际值与平均值的总误差中,回归误差与剩余误差是此消彼长的关系。因而回归误差从正面测定线性模型的拟合优度,剩余误差则从反面来判定线性模型的拟合优度。
皮尔逊相关系数
皮尔逊相关系数和前文的拟合优度是直接关联的, r2 中的r就是皮尔逊相关系数。如果斜率系数 b1 是正数,那么r就是正数,否则就是负数。由于拟合优度在区间[0,1]中,所以皮尔逊系数在区间[-1,1]之间。
其他的计算公式:
从上式可以得出r的一个优势:消除了量纲的影响。
从上式中可以得到r和 b1 相关。
对于一对关系(x,y)
- 如果r=1,那么x和y存在一个非常完美的正相关线性关系
- 如果r=-1,那么x和y存在一个非常完美的负相关线性关系
- 如果r=0,那么x和y不存在线性关系
r的符号代表是正相关还是负相关,绝对值越接近1表示线性相关性越强。
注意点
- 决定系数或者说拟合优度,以及皮尔逊系数是用来量化变量x和y之间的线性关系, r2 等于0并不代表x和y之间不存在关系,比如说 y=x2 的拟合优度就是等于0。
- r2 的值很大并不能说明回归的直线能很好拟合数据。其他的一些函数可能拟合的效果更好。
- 一个或者一些点(异常点?)会对 r2,r 产生很大的影响。
- r2 的值很大并不能说明x和y有实际意义的联系,统计意义上的线性关系并不能呢个说明有这样的因果关系。比如说在法国,喝的酒越多心脏病越低。
- 分清楚变量是对个体还是分组平均的。
- “具有统计意义的”r2值并不意味着斜率β1与0有意义的不同。统计意义并不意味着实际意义。
- r2 的值很大并不意味着用这个直线预测的值有用,有可能预测区间或者置信区间太宽而没用(?)。
假设检验(略)
参考资料
PennState Eberly College of Science 的在线课程
一些回归直线的相关系数例子
为什么样本方差(sample variance)的分母是 n-1?
百度上关于决定系数、拟合优度的相关介绍