1.与简单线性回归区别(simple linear regression)
多个自变量(X)
2.多元回归模型
y = B0 + B1x1+B2x2+...+Bpxp + e
e是误差值
3.多元回归方程
期望值中e的期望值为0,因此得到多元回归方程如下
E(y) = B0 + B1x1+B2x2+...+Bpxp
4.估计多元回归方程
y_hat = b0 + b1x1 + b2x2+...+bpxp
一个样本被用来计算B0,B1,B2...Bp的点估计b0,b1,b2,...,bp
5.估计流程(与简单线性回归方程类似)
6.估计方法
使sum of squares最小
运算与简单线性回归类似,涉及到线性代数和矩阵代数的运算
7.例子
一家快递公司送货:
运输里程:x1
运输次数:x2
运输时间:y
运输里程 |
运输次数 |
运输时间 |
100 |
4 |
9.3 |
50 |
3 |
4.8 |
100 |
4 |
8.9 |
100 |
2 |
6.5 |
50 |
2 |
4.2 |
80 |
2 |
6.2 |
75 |
3 |
7.4 |
65 |
4 |
6.0 |
y = b0 + b1*x1 + b2*x2
计算后得出方程如下:
y = -0.869 + 0.0611*x1 + 0.923*x2
8.参数含义
b0 平均每多运送一英里,运输时间延长0.0611小时
b1 平均每多一次运输,运输时间延长0.923小时
9.预测
如果一个运输任务是跑102英里,运输6次,预计多少小时?
time = -0.869 + 0.0611 * 102 + 0.923*6 = 10.9(小时)
10.如果自变量中有分类型变量(categorical data),如何处理?
英里数 |
次数 |
车型 |
时间 |
100 |
4 |
1 |
9.3 |
50 |
3 |
0 |
4.8 |
100 |
4 |
1 |
8.9 |
100 |
2 |
2 |
6.5 |
50 |
2 |
2 |
4.2 |
80 |
2 |
1 |
6.2 |
75 |
3 |
1 |
7.4 |
65 |
4 |
0 |
6 |
90 |
3 |
0 |
7.6 |
针对分类型变更需要先将分类型变量转化成数值型,有几种分类就追加几列,对应列值设置为1,其余设置为0,转化规则如下:
英里数 |
次数 |
车型 |
0 |
1 |
2 |
时间 |
100 |
4 |
1 |
0 |
1 |
0 |
9.3 |
50 |
3 |
0 |
1 |
0 |
0 |
4.8 |
100 |
4 |
1 |
0 |
1 |
0 |
8.9 |
100 |
2 |
2 |
0 |
0 |
1 |
6.5 |
50 |
2 |
2 |
0 |
0 |
1 |
4.2 |
80 |
2 |
1 |
0 |
1 |
0 |
6.2 |
75 |
3 |
1 |
0 |
1 |
0 |
7.4 |
65 |
4 |
0 |
1 |
0 |
0 |
6 |
90 |
3 |
0 |
1 |
0 |
0 |
7.6 |
11.关于误差的分布
误差e是一个随机变量,均值为0,e的方差对于所有自变量来说相等,所有e的值是独立的,
e满足正态分布,并且通过B0+B1*X1+B2*X2+...+Bp*Xp反映y的期望值