线性回归(一)

本文介绍了线性回归的基本概念,包括简单线性回归的总体回归直线、误差项和最小二乘估计。讨论了如何通过残差标准误(RSE)和R2统计量评估模型的准确性。接着,转向多元线性回归,探讨了模型的选择、变量的相关性以及模型拟合问题。最后,阐述了预测和误差分析,包括预测区间与置信区间的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(一)简单线性回归
总体回归直线:Y=β0+β1X+ϵϵ称为误差,服从零均值的正态分布,一般观察不到,其中Var(ϵ)=σ2E(ϵ)=0

通常假设误差ϵ是独立于X的。

  1. 探索总体变量

最小二乘线是用样本估计总体的一个特征。

例如:有n个关于Y的观测值,记为y1,y2,...,yn,可用它们估计总体均值μ。一般来说,样本均值能提供对总体均值的良好估计。如果我们能够从大量观测数据集中得到许多对μ的估计,则它们的均值正好等于μ

  • 那么单一的估计值μ^偏离真值μ有多远?

μ^的标准误差(standard error,记作SE(μ^))来衡量。

Var(μ^)=SE(μ^)2=σ2n,其中,δ是变量Y的每个观测值的标准差。标准误差还可理解为μ^偏离μ的实际值的平均量。

  • 同样可以探索β0^β1^与真实值β0β1的接近程度,用标准误差来衡量。假设每个观测值的误差项ϵi独立,且有相同的方差。
    标准误差

  • 注意区分:
    用样本来估计参数,其参数的标准差此时称为标准误差;若用总体来表示参数的离散程度,可称为标准差或方差。

  • 误差项的方差的估计σ2^被称为残差标准误,由公式RSE=RSS/(n2)

2.评价模型的准确性
量化模型拟合数据的程度,通常使用两个相关的量:残差标准误(RSE)和R2统计量。

  • RSE是对误差ϵ的标准偏差的估计
    这里写图片描述
    RSE被认为是对模型失拟的度量,是一种绝对度量方法。

  • R2统计量采用一种比例的形式。
    这里写图片描述
    这里TSS是总平方和,TSS=(yiy¯)2

总平方和TSS测量响应变量Y的总方差,可以认为是在执行回归分析之前的响应变量中的固有变异性;而RSS测量的是进行回归后仍无法解释的变异性,TSS-RSS测量的是响应变量进行回归之后被解释的变异性,而R2测量的是Y的变异中能被X解释的部分所占比例。

  • 在变量选择中R中显得不够合理,一般使用调整的R2
    (二)多元线性回归
    多元线性回归模型的形式为:
    Y=β0+β1X1+β2X2+...+βpXp+ϵ,其中,Xj代表第j个预测变量,βj可解释为在所有其他预测变量保存不变的情况下,Xj增加一个单位对Y产生的平均效果。

用最小二乘法进行估计,选择β0,β1,...,βp使残差平方和最小:
这里写图片描述

进行多元线性回归时,需要考虑的一些重要问题:
(1)预测变量X1,X2,...,Xp中是否至少有一个可以用来预测响应变量?
(2)所有预测变量都有助于解释Y吗?
(3)模型对数据的拟合程度如何?
(4)给定一组预测变量的值,响应值应预测为多少?所作预测的准确程度如何?

第一个问题
1.响应变量和预测变量之间是否有关系?
检验零假设:
H0:β1=β2=...=βp=0
对应的备择假设:
H1:βj0
要检验的F统计量:
F=(TSSRSS)/PRSS/(np1)
F统计量的取值取决于n和p的值,可以根据F分布计算出F统计量的p值,基于p值来判定是否拒绝H0
上述假设检验也可认为是以前所学的对回归方程的检验。

注意区分:

  • 当检验某一个变量的显著性时,可根据t分布的统计量确定p值,来判定该预测变量与响应变量的相关性。但是当预测变量的数目很大时,容易出现错误。

  • 当p较小时(p<<n)时,使用F统计量检验预测变量和响应变量是否相关。
    然而当p>n时,即待估系数βj的个数比可用于估计的观测个数还多,不能用最小二乘法拟合多元线性模型,所以F统计量无法使用,可用向前选择等方法。

问题(2)

变量选择:比较常见的情况是响应变量仅与预测变量的一个子集相关。所以确定哪些预测变量与响应变量相关,以建立只包含相关预测变量的模型。
理想情况下,含有p个预测变量的子模型有2p个。
判断一个模型的质量:统计量Cp,赤池信息准则(AIC),贝叶斯信息准则(BIC)和调整R2。当预测变量p的个数较大时,评价每个子模型显得非常不高效。

因此,有三种经典的方法可以完成这个任务:
向前选择:从零模型开始,加入的变量是使RSS最小的变量。
向后选择:逐步删除p值最大的统计量,直到剩余的p值均低于某个阈值。
混合选择:向前向后选择的综合。

问题(三):模型拟合
最常见的衡量模型拟合优劣的指标是RSER2
RSE一般被定义为:RSE=RSSnp1,易受量纲的影响;
R2接近于1,则表明该模型能解释响应变量的大部分方差,且不受量纲的影响。

问题(四)预测
系数估计值β0^,β1^,...,βp^是对β0,β1,...,βp的估计,最小二乘平面Y^=β0^+β1^X1...+βp^Xp是对真实总体回归平面
f(X)=β0+β1X1+...+βpXp的一个估计。

模型中存在随机误差,称之为不可约误差,随机变量的估计值与真实值的差距,我们用预测区间来表示。
系数估计的不准确性,称之为可约误差,我们可以用置信区间来确定y的估计值与f(X)的接近程度.
预测区间总是比置信区间宽,因为预测区间既包含f(X)的估计误差(可约误差),也包含单个点偏离总体回归平面程度的不确定性(不可约误差)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值