Pr=Probability(概率)
多元线性回归
yi=β0+β1*xi1+β2*xi2+……+ei;
原假设Ho为βj=0,即线性回归的系数为0.通常使用Pr>|t|小于α时拒绝原假设Ho,认为系数不为0;否则接受原假设Ho,认为系数为0,系数没有通过检验。
x1 | 1.37 | 11.34 | 9.67 | 0.76 | 17.67 | 15.91 | 15.74 | 5.41 |
x2 | 9.08 | 1.89 | ||||||
y | 4.93 | 1.86 |
/* 数据段 */
data ex;
input x1-x2 y@@; cards;
1.37 9.08 4.93 11.34 1.89 1.86 9.67 3.06 2.33
0.76 10.2 5.78 17.67 0.05 0.06 15.91 0.73 0.43
15.74 1.03 0.87 5.41 6.25 3.86
;
/*程序段*/
proc reg;/*调用回归模块*/
model y=x1 x2 /cli; /*对y关于x1做回归,/cli表示求预测值与预测区间*/
run;
运行结果如下:
(1)回归方程显著性检验
由Analysis of Variance表可知,F Value=392.52,Pr>F 的值(Probability概率)小于0.0001,远小于0.05,故拒绝原假设,接受备择假设,认为y与x1和x2之间具有显著的线性相关关系;
由R-Square的值为0.9937可知该方程的拟合度很高,样本观察值有99.37%的信息可以用回归方程进行解释,故拟合效果较好,认为y与x1和x2之间具有显著的线性相关关系.
(2)参数显著性检验
由Parameter Estimates表可知,对自变量x2,t的检验值为t=2.12,Pr>|t|的值等于0.0879,大于0.05,因此接受原假设Ho:β2=0,认为x2的系数应为0,说明x2的系数没有通过检验,为此需要在程序model y=x1 x2中去掉x2.
再次运行得到如下结果:
由参数估计表可知,对常数检验t值为t=33.9,Pr>|t|的值小于0.0001,远小于0.05,说明截距项(即常数项Intercept)通过检验,估计值为5.62117.
对自变量x1分析同样可以得知,x1系数通过检验,估计值为-0.31911.
(3)拟合区间
Output Statistics为样本的拟合结果。
以上为样本的拟合结果,其中Dep Var y为因变量的原始值,Predicted Value为y的拟合值,95% CL Predict为拟合值95%的的拟合区间,Residual为残差。例如,
第一组原函数值为4.93,拟合区间为[4.4662,5.9018],残差为4.93 - 5.184 =-0.254.
综合以上分析可以得到回归方程
y=-0.31911*x1+5.62177.
附
dependent variable 1.应变量; 应变数 2.因变量 3.因变数
Predicted Value 预测值,拟合值
Residual 残差所谓残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。