简单线性回归

简单线性回归是利用统计方法寻找自变量x与因变量y之间的线性关系。通过最小二乘法求解直线方程参数,评估拟合优度使用决定系数R²,衡量误差使用均方误差MSE。皮尔逊相关系数r衡量线性相关性。注意,高R²并不一定意味着实际意义的因果关系,可能存在异常点影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

什么是简单线性回归

用统计的方法来得到连续自变量x和因变量y之间的线性关系。和一般线性回归的区别在于只有一个自变量。

华氏温度和摄氏温度之间的关系:

Fahr=95Cels+32

这是一个确定的线性关系,不是我们需要解决的问题。

相对的,我们要解决的问题是关于非确定的,如下所示,因变量y是一千万人中因皮肤癌致死的人数,自变量x是美国49个州的纬度。

皮肤癌和海拔

从上图中可以看到纬度越高,越往北,由于皮肤癌致死的越少。上图支持了该种假说。纬度和皮肤癌致死人数成反比,但是这种关系不怎么好,看着不像一个线性的。图中的散点表明了一种趋势,也有离散的。因此这不是确定的关系,而是统计上的关系。

还有一些其他的统计上的关系,例如:

  1. 身高和体重。身高增加体重也会增加,但不是一个确定的线性关系
  2. 喝了多少酒和血液里的酒精浓度

衡量拟合的好坏程度63280550

身高体重

对于上图总结的自变量身高和因变量体重之间的线性关系,哪条总结的比较好?

可以用如下方程来表示一条直线:

y^i=b0+b1xi

其中,图中的一点代表一个样本( xi , yi ),即一个学生的身高和体重, xi 表示第i个样本的特征值(自变量), yi 表示第i个样本的实际值(因变量), y^i 表示第i个样本的预测值。

一个点的误差:

ei=yiy^i

衡量一条直线总结其中关系的好坏,需要综合所有的样本点,所以使用均方误差来综合一条直线的误差。然后就可以使用最小二乘方法来找到能使该误差最小的参数 b0,b1 ,从而确定这条最好的直线。

Q=i=1n(yiy^i)2

最小二乘方法求解直线方程的参数

求解能使误差Q最小的参数 b0,b1 ,即求解如下的规划模型:

minQ=i=1n(yi(b0+b1xi))2

通过Q对 b0,b1 求导置为0,即求解极值

Qb0=0Qb1=0

二元一次方程,用克拉默法则可以得到解:

b0=y¯b1x¯

b1=ni=1(xix¯)(yiy¯)ni=1(xix¯)2

由于是根据最小二乘原则得出的结果,所以一般把这条直线叫做最小二乘回归线。只做了一个假设,这对非确定的关系是一个线性的趋势。

简单线性回归模型

对于如下的一个高校绩点平均和学生入学成绩之间的关系:

校绩点平均和学生入学测试成绩之间的关系

我们可以根据最小二乘方法拟合出一条直线 μY=E(Y)=β0+β1x ,叫做总体回归线,即从所有的数据中总结出的直线规律。当然对于每一个学生,可以通过平均绩点来估计其入学测试的分数, E(Yi)=β0+β1xi 。但是很显然,这个分数和该同学实际的分数不一样,存在一些误差 ϵi 。因此另外有一个描述简单线性回归模型的方式: yi=E(Yi)+ϵi=β0+β1xi+ϵi

因此,为了得出关于人口参数 β0β1 的任何结论,我们必须对回归设置中数据的行为进行更多的假设。

  1. 首先看各绩点的平均值,连接它以后会得到一条直线,把这条直线作为我们预测的关系是否合适?
  2. 各绩点上的样本点都在直线附近,而且都在3以内,把这些误差绘制成一条曲线,会是一个正态分布吗?
  3. 各绩点上的样本点差距都类似,那么可以假设它们的方差一样吗?
  4. 假设一个学生的误差和其他学生的误差无关。

总结如上,我们得到了组成简单线性回归模型的4个条件:

  1. 因变量的均值 E(Yi) xi 成一个线性的关系
  2. 误差 ϵi 是相互独立的
  3. 误差 ϵi 在每个样本点都是正态分布
  4. 误差 ϵi 在每个样本点的方差 σ2 相等

常见误差方差

上一个例子中我们看到对于每类绩点样本点和平均直线的差距类似,有着相同的方差 σ2 。方差 σ2 是用来量化因变量(y)和平均总体回归线(未知)的偏离程度。研究方差有助于估计回归线最常用的方法有关,即预测一些未来的反应。

对于如下两个温度计AB,都可以测量摄氏温度和华氏温度,分别测量了十天的温度,得到如下的两个温度计的关系图。

温度计A

温度计B

温度计B上的点相对A来说,偏离回归方程不多。因此用温度计B来预测华氏温度,和实际的结果偏差不大,而温度计A来说就相差有点多。所以用温度计B来预测更准确。

那么怎么去衡量这个相差程度呢?答案是方差 σ2 。但是方差是一个总体的参数,所以只能去估计方差的值。

估计方差

IQ

上图中是IQ的统计图。IQ的平均是100,那么怎么衡量其他人对这个平均值的偏离程度。使用样本方差来估计总体方差:

s2=ni=1(yiy¯)2n1

样本方差的分布为什么是n-1?

样本方差的分布为什么是n-1?

简单来说就是样本方差是对总体方差的一个无偏估计,不知道总体的均值,所以损失一个自由度。

均方误差MSE:

MSE=ni=1(yiyi^)2n2

因为 yi^=β0+β1xi 有两个未知参数,损失两个自由度,所有分母是n-2。

决定系数,或拟合优度 r2

用来分清自变量和因变量之间的相关关系是否强烈。首先介绍一下用来评价回归直线的3个参数。

  1. SSR,回归平方和,用来量化回归直线估计的 yi^ 和样本均值或者 y¯ 相差多少
  2. SSE,残差平方和,计算估计值 yi^ 和实际值 yi 相差多少
  3. SSTO,总离差平方和,计算实际值 yi 和均值 y¯ 相差多少

举例说明一下自变量和因变量之间的相关关系强弱,对比以上3个参数:

弱相关

SSRSSESSTO===i=1n(yi^yi¯)2=119.1i=1n(yiyi^)2=1708.5i=1n(yiyi¯)2=1827.6

强相关

SSRSSESSTO===i=1n(yi^yi¯)2=6679.3i=1n(yiyi^)2=1708.5i=1n(yiyi¯)2=8487.8

其中SSTO是SSR和SSE的和。对于第一种情况,总偏离大多来自于SSE,而第二种情况大多来自于SSR。

拟合优度的计算

r2=SSRSSTO=1SSESSTO

分别计算上述两种情况下的拟合优度,分别为0.065和0.799。

有如下一些结论:

  1. 拟合优度是一个比例,所以取值范围为在[0,1]
  2. 如果拟合优度为1,说明SSE为0,也就是残差平方和为0,估计值和实际值一样
  3. 如果拟合优度为0,说明SSR为0,也就是回归平方和为0,估计出来的回归线是水平的

R²衡量的是回归方程整体的拟合度,是表达因变量与所有自变量之间的总体关系。R²等于回归平方和在总平方和中所占的比率,即回归方程所能解释的因变量变异性的百分比(在MATLAB中,R²=1-“回归平方和在总平方和中所占的比率”)。实际值与平均值的总误差中,回归误差与剩余误差是此消彼长的关系。因而回归误差从正面测定线性模型的拟合优度,剩余误差则从反面来判定线性模型的拟合优度。

皮尔逊相关系数

皮尔逊相关系数和前文的拟合优度是直接关联的, r2 中的r就是皮尔逊相关系数。如果斜率系数 b1 是正数,那么r就是正数,否则就是负数。由于拟合优度在区间[0,1]中,所以皮尔逊系数在区间[-1,1]之间。

其他的计算公式:

r=ni=1(xix¯)(yiy¯)ni=1(xix¯)2(yiy¯)2

从上式可以得出r的一个优势:消除了量纲的影响。

r=ni=1(xix¯)2ni=1(yiy¯)2×b1

从上式中可以得到r和 b1 相关。

对于一对关系(x,y)

  • 如果r=1,那么x和y存在一个非常完美的正相关线性关系
  • 如果r=-1,那么x和y存在一个非常完美的负相关线性关系
  • 如果r=0,那么x和y不存在线性关系

r的符号代表是正相关还是负相关,绝对值越接近1表示线性相关性越强。

注意点

  1. 决定系数或者说拟合优度,以及皮尔逊系数是用来量化变量x和y之间的线性关系, r2 等于0并不代表x和y之间不存在关系,比如说 y=x2 的拟合优度就是等于0。
  2. r2 的值很大并不能说明回归的直线能很好拟合数据。其他的一些函数可能拟合的效果更好。
  3. 一个或者一些点(异常点?)会对 r2,r 产生很大的影响。
  4. r2 的值很大并不能说明x和y有实际意义的联系,统计意义上的线性关系并不能呢个说明有这样的因果关系。比如说在法国,喝的酒越多心脏病越低。
  5. 分清楚变量是对个体还是分组平均的。
  6. “具有统计意义的”r2值并不意味着斜率β1与0有意义的不同。统计意义并不意味着实际意义。
  7. r2 的值很大并不意味着用这个直线预测的值有用,有可能预测区间或者置信区间太宽而没用(?)。

假设检验(略)

参考资料

PennState Eberly College of Science 的在线课程
一些回归直线的相关系数例子
为什么样本方差(sample variance)的分母是 n-1?
百度上关于决定系数、拟合优度的相关介绍

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值