嵌入式选择:将特征选择嵌入到优化算法中,是隐式地选择。
LASSO:让算法逼迫一些属性的权重为0,即最小化
L
0
L_0
L0,但实际上是通过最小化
L
1
L_1
L1来近似实现。 这时,就有两个优化目标:一是原来的最小化损失函数;二是新增加的最小化
L
1
L_1
L1,其形式同引入正则化得到的式子,而正则化又有助于降低过拟合的风险。
算法LASSO一举两得:降低过似合风险和得到“稀疏”解。
嵌入式选择与 L 1 L_1 L1正则化
在有趣的距离与范数中,我们定义了
L
0
,
L
1
,
L
2
L_0,L_1,L_2
L0,L1,L2等范数。
假定以某种方法迫使
w
\boldsymbol{w}
w的一些分量为0(最小化
L
0
L_0
L0),非零分量只有
d
′
d'
d′个,这时
w
T
x
=
(
w
1
,
w
2
,
⋯
,
w
d
)
(
x
1
;
x
2
;
⋯
;
x
d
)
=
(
w
1
,
w
2
,
⋯
,
w
d
′
,
0
,
⋯
,
0
)
(
x
1
;
x
2
;
⋯
;
x
d
′
;
x
d
′
+
1
;
⋯
;
x
d
)
(假定
w
的非零分量为
d
′
个且排在前面)
=
(
w
′
T
,
0
T
)
(
x
′
;
∗
)
=
w
′
T
x
′
\begin{align} \boldsymbol{w}^{\mathrm{T}}\boldsymbol{x}&=(w_1,w_2,\cdots,w_d)(x^1;x^2;\cdots;x^d)\notag\\ &=(w_1,w_2,\cdots,w_{d'},0,\cdots,0)(x^1;x^2;\cdots;x^{d'};x^{d'+1};\cdots;x^d)\notag\\ &\qquad \text{(假定$\boldsymbol{w}$的非零分量为$d'$个且排在前面)}\notag\\ &=({\boldsymbol{w}'}^{\mathrm{T}},{\boldsymbol{0}}^{\mathrm{T}})(\boldsymbol{x}';\boldsymbol{*})\notag\\ &={\boldsymbol{w}'}^{\mathrm{T}}\boldsymbol{x}' \tag{11.11} \end{align}
wTx=(w1,w2,⋯,wd)(x1;x2;⋯;xd)=(w1,w2,⋯,wd′,0,⋯,0)(x1;x2;⋯;xd′;xd′+1;⋯;xd)(假定w的非零分量为d′个且排在前面)=(w′T,0T)(x′;∗)=w′Tx′(11.11)
即“
x
\boldsymbol{x}
x作用于
w
\boldsymbol{w}
w”等价于“
x
′
\boldsymbol{x}'
x′作用于
w
′
\boldsymbol{w}'
w′”,而
x
′
=
(
x
1
;
x
2
;
⋯
;
x
d
′
)
\boldsymbol{x}'=(x^1;x^2;\cdots;x^{d'})
x′=(x1;x2;⋯;xd′),只有
d
′
d'
d′个属性,这就实现有“删维”的目的。 即它可以通过
w
\boldsymbol{w}
w的“稀疏”(由于非零分量不一定排在前面,而是零星地分布,故称为“稀疏”)来实现
x
\boldsymbol{x}
x的“删维”。
嵌入式选择是隐式地选择(算法逼迫一些属性的权重为0,即最小化 L 0 L_0 L0),但实际上是通过最小化 L 1 L_1 L1来近似实现。 这时,就有两个优化目标:一是原来的最小化损失函数;二是新增加的最小化 L 1 L_1 L1。 将二者合在一起进行优化,即为【西瓜书式(11.7)】,称为LASSO。 其形式同引入正则化得到的式子,而正则化又有助于降低过拟合的风险。 因此,算法LASSO一举两得:降低过似合风险和得到“稀疏”解(实现了式(11.11)的效果)。
【西瓜书图11.2】在二维情形下,以直观的方式解释了:
- L 2 L_2 L2正则化(岭回归)的最优点位于损失曲线(圆)与 ∣ ∣ w ∣ ∣ 2 2 = c ||\boldsymbol{w}||^2_2=c ∣∣w∣∣22=c(圆)相切处。
- L 1 L_1 L1正则化(LASSO)的最优点位于损失曲线(圆)与 ∣ ∣ w ∣ ∣ 1 = c ||\boldsymbol{w}||_1=c ∣∣w∣∣1=c(正方形)相切处,而该正方形是一种特殊的正方形:顶点在坐标轴上( ∣ w 1 ∣ + ∣ w 2 ∣ = c |w_1|+|w_2|=c ∣w1∣+∣w2∣=c),故最优点在坐标轴上,即另一坐标为0,这即为“稀疏”解。
【西瓜书式(11.7)】是基于线性回归目标【西瓜书式(11.5)】构造的 L 1 L_1 L1正则化,推广到一般,设优化目标函数为 f ( x ) f(\boldsymbol{x}) f(x),则 L 1 L_1 L1正则化为【西瓜书式(11.8)】。
通常用近端梯度下降(PGD)求解
L
1
L_1
L1正则化问题。
与梯度下降法不同的是:这里不是对整体(
f
(
x
)
+
λ
∣
∣
x
∣
∣
1
f(\boldsymbol{x})+\lambda|| \boldsymbol{x}||_1
f(x)+λ∣∣x∣∣1)使用泰勒展式,而是对其中的一部分(即
f
(
x
)
f(\boldsymbol{x})
f(x))使用泰勒展式,得到【西瓜书式(11.10)】,如是就有了图11.3的求值过程(图中的式子编号均为【西瓜书中的式子编号】)。
图11.3 中,从【西瓜书式(11.13)】求解
x
k
+
1
\boldsymbol{x}_{k+1}
xk+1如下:
L
2
∣
∣
x
−
z
∣
∣
2
2
+
λ
∣
∣
x
∣
∣
1
=
L
2
∑
i
=
1
d
[
x
i
−
z
i
]
2
+
λ
∑
i
=
1
d
∣
x
i
∣
=
L
2
∑
i
=
1
d
[
(
x
i
−
z
i
)
2
±
2
L
λ
x
i
]
=
L
2
∑
i
=
1
d
[
(
x
i
−
z
i
)
2
±
2
λ
L
(
x
i
−
z
i
)
+
(
λ
L
)
2
+
c
o
n
s
t
]
=
L
2
∑
i
=
1
d
[
(
x
i
−
z
i
±
λ
L
)
2
+
c
o
n
s
t
]
=
L
2
∑
i
=
1
d
[
(
x
i
−
z
i
±
λ
L
)
2
]
+
c
o
n
s
t
\begin{align} &\quad \frac{L}{2}||\boldsymbol{x}-\boldsymbol{z}||_2^2+\lambda ||\boldsymbol{x}||_1\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[x^i-z^i\right]^2+\lambda\sum_{i=1}^d|x^i|\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i)^2\pm \frac{2}{L}\lambda x^i\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i)^2\pm 2\frac{\lambda}{L}( x^i-z^i)+(\frac{\lambda}{L})^2+\mathrm{const}\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2+\mathrm{const}\right]\notag\\ &=\frac{L}{2}\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2\right]+\mathrm{const} \tag{11.12} \end{align}
2L∣∣x−z∣∣22+λ∣∣x∣∣1=2Li=1∑d[xi−zi]2+λi=1∑d∣xi∣=2Li=1∑d[(xi−zi)2±L2λxi]=2Li=1∑d[(xi−zi)2±2Lλ(xi−zi)+(Lλ)2+const]=2Li=1∑d[(xi−zi±Lλ)2+const]=2Li=1∑d[(xi−zi±Lλ)2]+const(11.12)
其中,
±
\pm
±当
x
i
>
0
x^i>0
xi>0时取“+”号。 这里由于下标被样本编号占用,故用上标表示向量的分量。
由8.3 AdaBoost算法的详细推导式 (8.17)的数学知识,对式(11.12)的最小化变为
min
∑
i
=
1
d
[
(
x
i
−
z
i
±
λ
L
)
2
]
\begin{align} \min\sum_{i=1}^d\left[(x^i-z^i\pm \frac{\lambda}{L})^2\right] \tag{11.13} \end{align}
mini=1∑d[(xi−zi±Lλ)2](11.13)
平方和式(11.13):当各项为0时,达到最小值0。 即解为
x
i
=
z
i
∓
λ
L
\begin{align} x^i=z^i\mp \frac{\lambda}{L} \tag{11.14} \end{align}
xi=zi∓Lλ(11.14)
其中,
∓
\mp
∓当
x
i
>
0
x^i>0
xi>0时取“
−
-
−”号。 整理即为【西瓜书式(11.14)】。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:11.3 包裹式选择(特征选择的LVW算法:打开包裹)
下一篇:11.5 稀疏表示与字典学习(字典、词频、文档的特征)