在之前已知
L
o
s
s
F
u
n
c
t
i
o
n
:
L
(
ω
)
=
∑
i
=
1
N
∣
∣
ω
T
x
i
−
y
i
∣
∣
2
解得
ω
^
=
(
X
T
X
)
−
1
X
T
Y
\begin{gathered} Loss \space Function:L(\omega)=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}\\ 解得\hat{\omega}=(X^{T}X)^{-1}X^{T}Y \end{gathered}
Loss Function:L(ω)=i=1∑N∣∣ωTxi−yi∣∣2解得ω^=(XTX)−1XTY
在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:
- 加数据
- 特征选择(降低特征维度)如 PCA 算法。
- 正则化
正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚)
作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
一般的,正则化框架有
a
r
g
m
i
n
ω
[
L
(
ω
)
⏟
L
o
s
s
+
λ
P
(
ω
)
⏟
p
e
n
a
l
t
y
]
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\underbrace{\lambda P(\omega)}_{penalty}]
ωargmin[Loss
L(ω)+penalty
λP(ω)]
当使用L1 Lasso时,对应正则化框架
a
r
g
m
i
n
ω
[
L
(
ω
)
⏟
L
o
s
s
+
∣
∣
ω
∣
∣
1
]
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||_{1}]
ωargmin[Loss
L(ω)+∣∣ω∣∣1]
当使用L2 Ridge(岭回归)时,对应正则化框架
a
r
g
m
i
n
ω
[
L
(
ω
)
⏟
L
o
s
s
+
∣
∣
ω
∣
∣
2
2
]
=
a
r
g
m
i
n
ω
[
L
(
ω
)
⏟
L
o
s
s
+
ω
T
ω
]
\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||^{2}_{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega]
ωargmin[Loss
L(ω)+∣∣ω∣∣22]=ωargmin[Loss
L(ω)+ωTω]
对于L2 Ridge,估计
ω
^
\hat{\omega}
ω^有
J
(
ω
)
=
∑
i
=
1
N
∣
∣
ω
T
x
i
−
y
i
∣
∣
2
+
λ
ω
T
ω
=
(
ω
T
X
T
−
Y
T
)
(
X
ω
−
Y
)
+
λ
ω
T
ω
=
ω
T
X
T
X
ω
−
2
ω
T
X
T
Y
+
Y
T
T
+
λ
ω
T
ω
=
ω
T
(
X
T
X
+
λ
I
)
ω
−
2
ω
T
X
T
Y
+
Y
T
Y
ω
^
=
a
r
g
m
i
n
ω
J
(
ω
)
∂
J
(
ω
)
∂
ω
=
2
(
X
T
X
+
λ
I
)
ω
−
2
X
T
Y
2
(
X
T
X
+
λ
I
)
ω
−
2
X
T
Y
=
0
ω
^
=
(
X
T
X
+
λ
I
)
−
1
X
T
Y
\begin{aligned} J(\omega)&=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}+\lambda \omega^{T}\omega\\ &=(\omega^{T}X^{T}-Y^{T})(X \omega-Y)+\lambda \omega^{T}\omega\\ &=\omega^{T}X^{T}X \omega-2\omega^{T}X^{T}Y+Y^{T}T+\lambda \omega^{T}\omega\\ &=\omega^{T}(X^{T}X+ \lambda I)\omega-2\omega^{T}X^{T}Y+Y^{T}Y\\ \hat{\omega}&=\mathop{argmin }\limits_{\omega}J(\omega)\\ \frac{\partial J(\omega)}{\partial \omega}&=2(X^{T}X+\lambda I)\omega-2X^{T}Y\\ 2(X^{T}X+\lambda I)\omega-2X^{T}Y&=0\\ \hat{\omega}&=(X^{T}X+\lambda I)^{-1}X^{T}Y \end{aligned}
J(ω)ω^∂ω∂J(ω)2(XTX+λI)ω−2XTYω^=i=1∑N∣∣ωTxi−yi∣∣2+λωTω=(ωTXT−YT)(Xω−Y)+λωTω=ωTXTXω−2ωTXTY+YTT+λωTω=ωT(XTX+λI)ω−2ωTXTY+YTY=ωargminJ(ω)=2(XTX+λI)ω−2XTY=0=(XTX+λI)−1XTY
利用2范数进行正则化不仅可以使模型选择 ω \omega ω较小的参数,同时也避免 X T X X^{T}X XTX不可逆的问题
作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
在前面已经知道
y
=
f
(
ω
)
+
ϵ
=
ω
T
x
+
ϵ
ϵ
∼
(
0
,
σ
2
)
y
∣
x
;
ω
∼
N
(
ω
T
x
,
σ
2
)
\begin{gathered} y=f(\omega)+\epsilon =\omega^{T}x+\epsilon \\ \epsilon \sim (0,\sigma^{2})\\y|x;\omega \sim N(\omega^{T}x,\sigma^{2}) \end{gathered}
y=f(ω)+ϵ=ωTx+ϵϵ∼(0,σ2)y∣x;ω∼N(ωTx,σ2)
假设权重先验也为高斯分布,即取先验分布
ω
∼
N
(
0
,
σ
0
2
)
\omega \sim N(0,\sigma_{0}^{2})
ω∼N(0,σ02),又有
p
(
y
∣
ω
)
=
1
2
π
σ
exp
[
−
(
y
−
ω
T
x
)
2
2
σ
2
]
p
(
ω
)
=
1
2
π
σ
0
exp
[
−
∣
∣
ω
∣
∣
2
2
σ
0
2
]
p
(
ω
∣
y
)
=
p
(
y
∣
ω
)
p
(
ω
)
p
(
y
)
\begin{aligned} p(y|\omega)&=\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}\right]\\ p(\omega)&=\frac{1}{\sqrt{2\pi}\sigma_{0}}\text{exp}\left[- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ p(\omega|y)&=\frac{p(y|\omega)p(\omega)}{p(y)} \end{aligned}
p(y∣ω)p(ω)p(ω∣y)=2πσ1exp[−2σ2(y−ωTx)2]=2πσ01exp[−2σ02∣∣ω∣∣2]=p(y)p(y∣ω)p(ω)
因此对于
ω
\omega
ω的最大后验,有
ω
^
=
a
r
g
m
a
x
ω
p
(
ω
∣
y
)
这里应该是
∏
i
=
1
N
p
(
ω
∣
y
i
)
,
但最后再写不影响
=
a
r
g
m
a
x
ω
p
(
y
∣
ω
)
⋅
p
(
ω
)
=
a
r
g
m
a
x
ω
log
[
p
(
y
∣
ω
)
⋅
p
(
ω
)
]
=
a
r
g
m
a
x
ω
log
(
1
2
π
σ
1
2
π
σ
0
)
+
log
exp
[
−
(
y
−
ω
T
x
)
2
2
σ
2
−
∣
∣
ω
∣
∣
2
2
σ
0
2
]
=
a
r
g
m
i
n
ω
[
(
y
−
ω
T
x
)
2
2
σ
2
+
∣
∣
ω
∣
∣
2
2
σ
0
2
]
=
a
r
g
m
i
n
ω
[
(
y
−
ω
T
x
)
2
+
σ
2
σ
0
2
∣
∣
ω
∣
∣
2
]
=
a
r
g
m
i
n
ω
[
∑
i
=
1
N
(
y
i
−
ω
T
x
i
)
2
+
σ
2
σ
0
2
∣
∣
ω
∣
∣
2
]
\begin{aligned} \hat{\omega}&=\mathop{argmax\space}\limits_{\omega}p(\omega|y)\quad 这里应该是\prod\limits_{i=1}^{N}p(\omega|y_{i}),但最后再写不影响\\ &=\mathop{argmax\space}\limits_{\omega}p(y|\omega)\cdot p(\omega)\\ &=\mathop{argmax\space}\limits_{\omega}\log[p(y|\omega)\cdot p(\omega)]\\ &=\mathop{argmax\space}\limits_{\omega}\log\left(\frac{1}{\sqrt{2\pi}\sigma} \frac{1}{\sqrt{2\pi}\sigma_{0}}\right)+\log \text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[ \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}+ \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[(y-\omega^{T}x)^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}||\omega||^{2}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[\sum\limits_{i=1}^{N}(y_{i}-\omega^{T}x_{i})^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}|| \omega||^{2}\right] \end{aligned}
ω^=ωargmax p(ω∣y)这里应该是i=1∏Np(ω∣yi),但最后再写不影响=ωargmax p(y∣ω)⋅p(ω)=ωargmax log[p(y∣ω)⋅p(ω)]=ωargmax log(2πσ12πσ01)+logexp[−2σ2(y−ωTx)2−2σ02∣∣ω∣∣2]=ωargmin [2σ2(y−ωTx)2+2σ02∣∣ω∣∣2]=ωargmin [(y−ωTx)2+σ02σ2∣∣ω∣∣2]=ωargmin [i=1∑N(yi−ωTxi)2+σ02σ2∣∣ω∣∣2]
从这里就可以看出,正则化后的最小二乘估计等价于噪声为高斯分布、先验分布为高斯分布的最大后验
再加上之前的,没有正则化的最小二乘估计等价于噪声为高斯分布的极大似然估计
我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前,有⼈问我们哪个盒⼦被选中,那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率(prior probability),因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔果是橘⼦,我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率(posterior probability),因为它是我们观察到F之后的概率。注意,在这个例⼦中,选择红盒⼦的先验概率是 4 10 \frac{4}{10} 104,所以与红盒⼦相⽐,我们更有可能选择蓝盒⼦。然⽽,⼀旦我们观察到选择的⽔果是橘⼦,我们发现红盒⼦的后验概率现在是 2 3 \frac{2}{3} 32,因此现在实际上更可能选择的是红盒⼦。这个结果与我们的直觉相符,因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多,因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。事实上,这个证据相当强,已经超过了先验的假设,使得红盒⼦被选择的可能性⼤于蓝盒⼦。
来源:《PRML Translation》-P19
作者:马春鹏
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop
小结
线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
该部分在PRML中P27,28页中有提到
优快云话题挑战赛第2期
参赛话题:学习笔记