2016-10-18
Week 3 线性回归
Outline
线性回归模型
- 最小二乘 Least Squares Fit
- 统计量 Mesures of Fit
- 假设检验
回归模型中的其他注意事项
- Qualitative Predictors 定性预测
- Interaction Terms
Potential Fit Problems
线性回归与KNN回归
线性回归模型
其中,β0代表截距,βi代表变量Xi的斜率,ϵ代表均值为0的随机误差项。
可使用梯度下降或牛顿迭代法来求参数β。
最小二乘估计 (least squares fit)
使用最小二乘法估计参数
统计量(Mesures of Fit)
标准差(standard erro, SE)
其中 σ是变量Y的每个预测值
残差平方和(residual sum of squares, RSS)
总平方和(total sum of squares, TSS)测量y的总方差。
判断线性回归的拟合质量通常使用两个相关的量:残差标准误(residual standard error, RSE)和 R2统计量。
RSE是对ϵ的标准偏差的估计。R2统计量采用比例的方式(被解释方差的比例)。
R2统计量总是在0到1之间,0意味着模型没有解释任何variance,1意味着完美解释。
2016/10/19
假设检验 hypothesis test
在进行多元线性回归时,有一些重要问题需要解释:
βj是否等于0?我们可以使用假设检验来回答。如果我们不能确定 β0≠j,那么Xj在预测中就不存在。
我们能确定至少有一个变量X是有用的吗?即β1=β2=βj=0?
βj=0?X是一个重要的变量吗?
我们使用 假设检验 来回答这个问题。
检验零假设:
对应的备择假设是
计算t-test,测量βj偏离0的标准偏差。其中
当n>30时,t近似正态分布。假设βj=0,计算任意观测值大于等于|t|的概率,就是 p值 (p value)。可以认为,当p很小时,预测变量和响应变量间存在关联。
如果t比较大(p比较小),我们就可以确定βj≠0,并且存在着关系。
整个回归公式解释所有情况吗?
假设
使用F检测(F test)
若H0为真,则F统计量应该接近1,如果Ha为真,那么F大于1.
回归模型中的其他注意事项
定性预测变量
上面讲的都是定量(quantitative)的,也可使用回归处理分类问题。
K近邻回归 KNN Regression
与KNN分类近似。根据给定的X选择K个最接近的点,用这些点的平均值来估计f(x0)
当真实关系为非线性时,KNN比线性回归更好。
这一章有点乱