引入
正式介绍简单线性回归之前需要啰嗦一下线性回归的重要性,并且抛出贯穿本章的例子以及例子引发的问题。
重要性
虽然和其他模型一比,线性回归算不上fancy,但是线性回归模型依然是一个应用广泛并且比较有效的模型。
例子
本章使用的例子还是第二章中使用的advertising的例子。我们需要提出一份营销计划(各渠道广告投入:TV, radio, newspaper)以提高下年的销售量(sale)。
问题
(1) 预算与销售量是否有关:
在闷头算和下手写计划之前,得先在数据中找到证明预算和销售量之间是有关联的证据。要不然老板凭啥信嘞。
(2) 广告预算和销量之间的关系有多强:
如果两者确实有关系,那么我们希望确定这个关系有多强,也就是说我们能否通过广告投放量精确的预测出销量。换句话说,我们的预测和瞎猜差距大吗?如果跟瞎猜差不多,那就是弱的相关关系,反之亦然。
(3) 哪种渠道可以促进销售:
我们有三种媒体渠道可以投放广告,那么是所有的渠道都可以促进销售吗,还是只有其中某个。回答这个问题我们需要在三者都投入的情况下分离出每个媒体的影响。
To answer this question, we must find a way to separate out the individual effects of each medium when we have spent money on all three media.
(4) 如何精确估计每个渠道对销量的影响:
在某个特定渠道上,每增加1$投入会怎加多少销量?我们对增加值的预测精度又是多少?
(5) 对未来销量的预测精度如何:
在给定各个渠道投入的情况下,预测销量是多少。该预测的精度如何?
(6) 这种关系究竟是不是线性的:
如果X,Y之间关系确实是线性的,那么线性回归就是给不错的选择。但是如果之间关系不是线性的,那么就需要考虑,要不要对X,Y进行处理。
(7) 各个渠道之间是否存在协同效应:
例如,TV和radio各投5万美金,可能比单独在TV投10万带来更高的销售量。
In marketing, this is known as a synergy effect, while in statistics it is called an interaction effect.
3.1 简单线性回归
简单线性回归(simple linear regression):根据单一变量X预测响应变量Y。
Y
≈
β
0
+
β
1
X
Y ≈ β0 + β1X
Y≈β0+β1X
把例子带进来:
s
a
l
e
s
≈
β
0
+
β
1
×
T
V
sales≈ β0 + β1 ×TV
sales≈β0+β1×TV
其中
β
0
β_0
β0和
β
1
β_1
β1都是未知的系数/参数,当我们使用训练数据训练后得出
β
0
β_0
β0和
β
1
β_1
β1,我们就可以在给定TV广告费的情况下计算出预测的销量了。
y
^
=
β
^
0
+
β
^
1
x
\hat y = \hat β_0 + \hat β_1x
y^=β^0+β^1x
其中“^”表示未知参数的估计值,或者响应变量的预测值。
3.1.1 估计系数
β
0
β_0
β0和
β
1
β_1
β1是未知系数,所以在正式计算预测值之前要先算出
β
0
β_0
β0和
β
1
β_1
β1。我们 希望找到的
β
0
β_0
β0和
β
1
β_1
β1应该是可以让这个模型的预测值和我们数据集中的实际值最接近的两个数字。其中测量接近程度有很多标准,此处使用RSS
R
S
S
=
e
1
2
+
e
2
2
+
⋅
⋅
⋅
+
e
n
2
RSS = e^2_1 + e^2_ 2 +···+ e^2_ n
RSS=e12+e22+⋅⋅⋅+en2
上式等价于:
R
S
S
=
(
y
1
−
β
^
0
−
β
^
1
x
1
)
2
+
(
y
2
−
β
^
0
−
β
^
1
x
2
)
2
+
.
.
.
+
(
y
n
−
β
^
0
−
β
^
1
x
n
)
2
RSS = (y_1−\hatβ_0−\hatβ_1x_1)^2+(y_2−\hatβ_0−\hat β_1x_2)^2+...+(y_n−\hatβ_0−\hatβ_1x_n)^2
RSS=(y1−β^0−β^1x1)2+(y2−β^0−β^1x2)2+...+(yn−β^0−β^1xn)2
最小二乘法选择
β
0
β_0
β0和
β
1
β_1
β1来使RSS最小。
此处通过微积分运算可知,是RSS最小的参数是:
β
^
1
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
\hat β_1 =\frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^n (x_i-\bar x)}
β^1=∑i=1n(xi−xˉ)∑i=1n(xi−xˉ)(yi−yˉ)
β
^
0
=
y
ˉ
−
β
^
1
x
ˉ
\hatβ_0 =\bar y − \hat β_1 \bar x
β^0=yˉ−β^1xˉ
此处
x
ˉ
\bar x
xˉ 和
y
ˉ
\bar y
yˉ 是x,y的均值。
3.1.2 评估系数估计值的准确性
X,Y之间的真实关系如下式所示:
Y
=
β
0
+
β
1
X
+
ε
Y = β_0 + β_1X + \varepsilon
Y=β0+β1X+ε
书中将此处的参数
β
0
β_0
β0和
β
1
β_1
β1的估计与
μ
\mu
μ的估计进行类比。它们都是无偏的。也就是说在单个数据集上,一次估计得到的样本均值/
β
0
β_0
β0和
β
1
β_1
β1,可能与实际情况并不相符,但是大量数据多次计算结果的均值将会恰为真值。
此处提出一个问题:单一估计值有多准确?(偏离真值有多远?)我们采用SE (standard error) 来衡量
V
a
r
(
μ
^
)
=
S
E
(
μ
^
)
2
=
σ
2
n
Var(\hat μ) = SE(\hat μ)^2 =\frac{σ^2}{n}
Var(μ^)=SE(μ^)2=nσ2
S
E
(
μ
^
)
SE(\hat \mu)
SE(μ^)可以告诉我们
(1)估计值
μ
^
\hat \mu
μ^偏离实际值
μ
\mu
μ的平均量
(2)偏差随n增大而减小
同样我们也可以对
β
^
0
\hatβ_0
β^0和
β
^
1
\hatβ_1
β^1计算SE,公式如下:
S
E
(
β
^
0
)
2
=
σ
2
[
1
n
+
x
ˉ
2
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
]
SE(\hat \beta_0)^2=\sigma^2[\frac{1}{n}+\frac{\bar x^2}{\sum_{i=1}^n(x_i-\bar x)^2}]
SE(β^0)2=σ2[n1+∑i=1n(xi−xˉ)2xˉ2]
S
E
(
β
^
1
)
2
=
σ
2
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
SE(\hat \beta_1)^2=\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar x)^2}
SE(β^1)2=∑i=1n(xi−xˉ)2σ2
SE可以用来计算置信区间也可以用来对系数进行假设检验。
置信区间:
例如
β
1
\beta_1
β1的95%置信区间为:
β
^
1
±
2
S
E
(
β
^
1
)
\hat\beta_1\pm2SE(\hat\beta_1)
β^1±2SE(β^1)
假设检验:
例如:
H
0
H_0
H0:X和Y之间没有关系,
H
α
H_\alpha
Hα:X和Y之间有一定关系
等价于:
H
0
H_0
H0:
β
1
=
0
\beta_1=0
β1=0,
H
α
H_\alpha
Hα:
β
1
≠
0
\beta1 \neq 0
β1̸=0
如果SE很小,即使
β
^
1
\hat \beta_1
β^1很小,也可能为
β
1
≠
0
\beta1 \neq 0
β1̸=0提供强有力的证据,证明X和Y相关,反之亦然。
t
=
β
^
1
−
0
S
E
(
β
^
1
)
t=\frac{\hat\beta_1-0}{SE(\hat\beta_1)}
t=SE(β^1)β^1−0
这里,我们用t来衡量
β
^
1
\hat \beta_1
β^1偏离0的标准偏差。我们假设上式服从t分布,把观测值大于
∣
t
∣
|t|
∣t∣的概率称为p值(p-value),如果p足够小那么我们就拒绝原假设。
3.1.3 评价模型准确性
这里介绍了两种评价指标RSE(residual standard error 残差标准误)和
R
2
R^2
R2
RSE:
RSE是对
ε
\varepsilon
ε的标准偏差估计,即他是响应值会偏离真正的回归直线的平均量(由于存在
ε
\varepsilon
ε所以即使是真正的回归线,也不能做出完美预测)。
R
S
E
=
1
n
−
2
R
S
S
RSE=\sqrt{\frac{1}{n-2}RSS}
RSE=n−21RSS
R
S
S
=
∑
i
=
1
n
(
y
i
−
y
^
i
)
2
RSS=\sum_{i=1}^n(y_i-\hat y_i)^2
RSS=i=1∑n(yi−y^i)2
R
2
R^2
R2统计量:
R
2
=
T
S
S
−
R
S
S
T
S
S
R^2=\frac{TSS-RSS}{TSS}
R2=TSSTSS−RSS
R
2
R^2
R2测量了Y的变异中能被X解释的部分所占比例。
Hence, TSS−RSS measures the amount of variability in the response that is explained (or removed) by performing the regression, and R2 measures the proportion of variability in Y that can be explained using X.
接近1说明被解释的部分占比大,接近0说明没有被解释太多variation或者本来误差就很大或者都有。
Reference
《An Introduction to Statistical Learning》
《统计学习导论-基于R应用》
若需引用请注明出处。
若有错误欢迎指正、讨论。