(一)简单线性回归
总体回归直线:Y=β0+β1X+ϵ,ϵ称为误差,服从零均值的正态分布,一般观察不到,其中Var(ϵ)=σ2,E(ϵ)=0
通常假设误差ϵ是独立于X的。
- 探索总体变量
最小二乘线是用样本估计总体的一个特征。
例如:有n个关于Y的观测值,记为y1,y2,...,yn,可用它们估计总体均值μ。一般来说,样本均值能提供对总体均值的良好估计。如果我们能够从大量观测数据集中得到许多对μ的估计,则它们的均值正好等于μ。
- 那么单一的估计值μ^偏离真值μ有多远?
用μ^的标准误差(standard error,记作SE(μ^))来衡量。
Var(μ^)=SE(μ^)2=σ2n,其中,δ是变量Y的每个观测值的标准差。标准误差还可理解为μ^偏离μ的实际值的平均量。
同样可以探索β0^和β1^与真实值β0和β1的接近程度,用标准误差来衡量。假设每个观测值的误差项ϵi独立,且有相同的方差。
注意区分:
用样本来估计参数,其参数的标准差此时称为标准误差;若用总体来表示参数的离散程度,可称为标准差或方差。误差项的方差的估计σ2^被称为残差标准误,由公式RSE=RSS/(n−2)−−−−−−−−−−−√
2.评价模型的准确性
量化模型拟合数据的程度,通常使用两个相关的量:残差标准误(RSE)和R2统计量。
RSE是对误差ϵ的标准偏差的估计
RSE被认为是对模型失拟的度量,是一种绝对度量方法。R2统计量采用一种比例的形式。
这里TSS是总平方和,TSS=∑(yi−y¯)2
总平方和TSS测量响应变量Y的总方差,可以认为是在执行回归分析之前的响应变量中的固有变异性;而RSS测量的是进行回归后仍无法解释的变异性,TSS-RSS测量的是响应变量进行回归之后被解释的变异性,而R2测量的是Y的变异中能被X解释的部分所占比例。
- 在变量选择中R中显得不够合理,一般使用调整的R2
(二)多元线性回归
多元线性回归模型的形式为:
Y=β0+β1X1+β2X2+...+βpXp+ϵ,其中,Xj代表第j个预测变量,βj可解释为在所有其他预测变量保存不变的情况下,Xj增加一个单位对Y产生的平均效果。
用最小二乘法进行估计,选择β0,β1,...,βp使残差平方和最小:
进行多元线性回归时,需要考虑的一些重要问题:
(1)预测变量X1,X2,...,Xp中是否至少有一个可以用来预测响应变量?
(2)所有预测变量都有助于解释Y吗?
(3)模型对数据的拟合程度如何?
(4)给定一组预测变量的值,响应值应预测为多少?所作预测的准确程度如何?
第一个问题
1.响应变量和预测变量之间是否有关系?
检验零假设:
H0:β1=β2=...=βp=0
对应的备择假设:
H1:至少有一个βj不为0
要检验的F统计量:
F=(TSS−RSS)/PRSS/(n−p−1)
F统计量的取值取决于n和p的值,可以根据F分布计算出F统计量的p值,基于p值来判定是否拒绝H0。
上述假设检验也可认为是以前所学的对回归方程的检验。
注意区分:
当检验某一个变量的显著性时,可根据t分布的统计量确定p值,来判定该预测变量与响应变量的相关性。但是当预测变量的数目很大时,容易出现错误。
当p较小时(p<<n)时,使用F统计量检验预测变量和响应变量是否相关。
然而当p>n时,即待估系数βj的个数比可用于估计的观测个数还多,不能用最小二乘法拟合多元线性模型,所以F统计量无法使用,可用向前选择等方法。
问题(2)
变量选择:比较常见的情况是响应变量仅与预测变量的一个子集相关。所以确定哪些预测变量与响应变量相关,以建立只包含相关预测变量的模型。
理想情况下,含有p个预测变量的子模型有2p个。
判断一个模型的质量:统计量Cp,赤池信息准则(AIC),贝叶斯信息准则(BIC)和调整R2。当预测变量p的个数较大时,评价每个子模型显得非常不高效。
因此,有三种经典的方法可以完成这个任务:
向前选择:从零模型开始,加入的变量是使RSS最小的变量。
向后选择:逐步删除p值最大的统计量,直到剩余的p值均低于某个阈值。
混合选择:向前向后选择的综合。
问题(三):模型拟合
最常见的衡量模型拟合优劣的指标是RSE和R2,
RSE一般被定义为:RSE=RSSn−p−1−−−−−√,易受量纲的影响;
若R2接近于1,则表明该模型能解释响应变量的大部分方差,且不受量纲的影响。
问题(四)预测
系数估计值β0^,β1^,...,βp^是对β0,β1,...,βp的估计,最小二乘平面Y^=β0^+β1^X1...+βp^Xp是对真实总体回归平面
f(X)=β0+β1X1+...+βpXp的一个估计。
模型中存在随机误差,称之为不可约误差,随机变量的估计值与真实值的差距,我们用预测区间来表示。
系数估计的不准确性,称之为可约误差,我们可以用置信区间来确定y的估计值与f(X)的接近程度.
预测区间总是比置信区间宽,因为预测区间既包含f(X)的估计误差(可约误差),也包含单个点偏离总体回归平面程度的不确定性(不可约误差)。