例子:基于广告数据理解线性回归模型
Advertising:sales(Y)、TV、radio、newspaper
- 销售额与广告预算之间是否有关系
- 相关性的强度
- 哪一种媒介对销售额的贡献最大
- 媒介对销售额影响估计的精确度
- 未来销售额预测的精确度
- 该关系是否是线性相关的
- 广告媒介是否有协同作用
简单的线性回归模型
定义线性回归模型:
Y≈β0+β1X
β0和β1称为总体参数
β^0和β^1为模型参数,通过训练集学习产生
估计得回归方程:Y^=β^0+β^1X
参数估计
拟合方法:least squares fit
SSE=e21+e22+...+e2ne2i=(yi−y^i)2
目标:SSE(误差平方和)最小化
解:
β^1=∑n1(xi−x¯)(yi−y¯)∑n1(xi−x¯)β^0=y¯−β^1x¯
参数估计评价-模型的假定
确定假定的模型是否合理:要对变量之间的关系的显著性进行检验。
X和Y真正的关系为:Y=f(X)+ϵ.f是某个未知的函数,
1. E(ϵ)=0,意味着β0;β1都是常数
2. 对于所有的x值,ϵ的方差相同,用σ2表示
3. ϵ相对独立
4. 误差项ϵ是一个正态分布的随机变量
假设ϵ与X独立.评价总回归线与最小二乘线之间的差别.相当于标准统计学中利用样本预测总体的方法。样本均值与总体均值不同,但通常样本均值对总体均值提供了一个较好的估计。同理,β0和β1在现实中是未知的,我们试图利用β^0和β^1来估计。
通过计算β^0和β^1的标准差来评价与真实参数的距离:
SE(β^0)2=σ2[1n+x¯2∑n1(xi−x¯)2]SE(β^1)2=σ2∑n1(xi−x¯)2σ2=Var(ϵ)
通常,σ2是ϵ的方差,从回归模型和它的假设中可以得出结论:σ2也是因变量y关于回归直线的方差,SSE是实际观测值关于估计得回归直线变异性的度量,用SSE除以它的自由度,得到均方误差。均方误差给出了σ2的一个估计量(每个平方和都有一个与之相关联的数,这个数叫做自由度,为了计算SSE,必须估计两个参数β0;β1,所以SSE的自由度是n-2)s=MSE−−−−−√=SSE/(n−2)−−−−−−−−−−−√
MSE是均方误差,s为估计得标准误差
95%置信区间:[β^1−2SE(β^1),β^1+SE(β^1)]
通过SE(β^1)还能够进行假设检验,计算出p值和t值,进一步评估参数估计得准确性。t=β^1−0SE(β^1)
##评价模型的精确度
MSE
R2=SSRSST
R2称为判定系数,理解为总平方和中能被估计得回归方程解释的百分比
SST=∑(yi−y¯)
TSS表示利用均值来估计所产生的离差平方和,称为总的平方和
SSR=∑(y^i−y¯)2
SSR 称为回归平方和,用于度量y^和y¯之间的偏离程度
SST=SSR+SSE
利用三个平方和能够给出回归方程一个拟合优度的度量
###多元线性回归
Y≈β0+β1X1+...βnXn
1777

被折叠的 条评论
为什么被折叠?



