Linear Regression 线性回归
最小二乘法得到的β0和β1的估计:
β^1=covˆ(x,y)Varˆ(x),β^0=Y¯¯¯−β^1X¯¯¯
β^1的计算式:β^1=∑xiyi−∑xi∑yin∑x2i−(∑xi)2n
全都由样本数据构成,便于计算。
得到的回归方程可以写成:y^=β^0+β^1x
也可以写成这种形式:y^=a+b(x−X¯¯¯)
对于散点(x,y)而言,第一个变量x是依赖变量(dependent variable),第二个变量
Error Sum of Squares: SSE=∑i=1n(yi−y^i)2
homoscedasticity
即对于每一个x而言,
对于σ2的估计如下:
s2y|x=1n−2∑i=1n(yi−y^i)2=n−1n−2(s2y−β^2is2x)(∗)
这里的分母是n−2是因为计算β^0和β^1时用去了两个自由度。
若(∗)中的β^i=0,表明给定x情况下
由(∗)式,标准误SEE(Standard Error of Estimate)即为sy|x。
这里s2x=∑i=1n(xi−x^i)2n−1,s2y=∑i=1n(yi−y^i)2n−1
对于任意给定的x,假定
β^0∼N(β0,σ2(1n+X¯2(n−1)s2x))(0)
β^1∼N(β1,σ2(n−1)s2x)(1)
因为我们没有σ2的值,因此用(∗)中的s2y|x替代。使用自由度为n−2的t分布。
1.首先考虑
假定
零假设:H0:β1=0
备择假设:Ha:β1≠0
根据(1)式计算出t统计量:
如果|t|>t1−α2(n−2),在α的程度拒绝H0(此时p<0.001)
这里的零假设是指假定斜率为0,即x和
同时,如果零假设没有被拒绝可能表明:1.x对于预测
置信区间为:β^1−t1−α2[sy|xsxn−1√]≤β1≤β^1+t1−α2[sy|xsxn−1√]
2.再考虑β0
0假设:H0:β0=β(0)0
根据(0)式计算t统计量:
t∼t(n−2)