基于 Lp 正则化的高维稀疏解的反演

最新推荐文章于 2024-10-15 11:11:38 发布

原创最新推荐文章于 2024-10-15 11:11:38 发布 · 950 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法

本文探讨了高维稀疏解逼近问题，通过优化问题和概率论视角解释了L1正则化为何产生稀疏模型。介绍了L1和L1.5正则化的求解方法，包括软阈值迭代算法和重赋权技巧，并通过实例分析了在不同矩阵条件下L1和L1.5的表现。

一、稀疏解的逼近问题

对于高维稀疏解的逼近问题，可以归结为模型
$x+\epsilon$
其中， $\in \mathbb{R} ^{M \times N}$ 是给定或者训练得到的 $\times N$ 矩阵， $y∈RM\bf y \in \mathbb{R} ^M$ 是测得的数据， $ϵ\epsilon$ 是扰动噪声。我们的目的是根据已知数据 $y,A,ϵ\bf y ,A,\epsilon$ ，来反演高维稀疏解 $x∈RN\bf x \in \mathbb{R} ^N$ 。

机器学习的回归问题中，为了防止过拟合和提高模型泛化性能，对原始损失函数引入额外惩罚项信息，即 $L_p$ 正则化
$\bold{x}=\arg \min_{\bold{x}} \left \| A \bold{x} -\bold{y}\right \| ^2+\lambda \left \| \bold{x}\right \| _{L_p}^{p} ,0 \le p \le 2$
特别的，当 $p = 0$ 时，
$\left \| \bold x \right \| _{L_0}=\sum_{i=1}^N I_{x_i \ne 0},I_{x_i \ne 0}= \left\{\begin{matrix} 1 & x_i \ne 0\\ 0 & x_i = 0 \end{matrix}\right.$ 根据不同的问题，选择合适的参数 $p$ 。

$L_1$ 正则化可以使得参数稀疏化，从而过滤掉模型的一些无用特征，提高模型的泛化能力，降低过拟合的可能。 $L_2$ 正则化可以使得参数平滑，防止模型过拟合。因此对比而言， $L_1$ 正则化更适合处理高维稀疏数据。

下面以二维为例，从优化问题和概率论角度来讨论为什么 $L_1$ 正则化产生稀疏模型。

1.1、优化问题角度

此时模型的求解转化为如下的优化问题
$\bold{x}=\arg \min_{x} \left \| \begin{bmatrix} a_{11} & a_{12}\\ a_{21} & a_{22} \end{bmatrix}\begin{bmatrix} x_1\\ x_2 \end{bmatrix}-\begin{bmatrix} y_1 \\ y_2 \end{bmatrix} \right \| ^2 +\lambda \sum_{i=1}^2 \left | x_i \right | ^p$
将损失函数 $f (x)$ 投影到 $x_1,x_2$ 平面，即等值线（如图彩色线条），并分别画出 $L_1$ 正则化项和 $L_2$ 正则化项（如图黑色线条）

L 2
正则化项同拉格朗日乘子的作用一样，起了约束作用。因为当损失函数 $f (x)$ 的等值线与正则化项首次相交的地方就是最优解。从上图可见， $L_1$ 正则化项比 $L_2$ 多出4个突出的角，当等值线与这些角相交的机率会大大增加。而在这些角上，某个权值 $x_i$ 等于0。当维数增加， $L_1$ 突出的角更多，因此更容易产生稀疏模型。

1.2、概率论问题角度}

$L_1$ 正则化相当于为 $x\bf x$ 加入了Laplace先验分布，而 $L_2$ 正则化项相当于为 $x\bf x$ 加入了Gaussian先验分布。
在这里插入图片描述

从分布图直观上看，在两端Gaussian分布的概率 $p_G(x)$ 小于Laplace分布的概率 $p_L(x)$ ，且在中间段Gaussian分布等于0和接近0的分布很接近，说明Gaussian分布下的$\bf x $比较均匀。而Laplace分布等于0处的概率远大于其他部分，说明Laplace分布下的x 存在更多的0元素。

二、 $L_{1}$ 与 $L_{1/2}$ 正则化的求解

2.2、 $L_1$ 的软阈值迭代算法

对于连续可微的无约束优化问题
$\min _{\bf x \in \mathbb{R} } f(\bf x)$
且满足Lipschitz连续条件
$\left \| \bigtriangledown f(\bf x_k)-\bigtriangledown f(\bf x_{k-1}) \right \| _2 \le L(f)\left \| \bf \bf x_k-\bf \bf x_{k-1} \right \| _2$
根据梯度法，给定初始点 $x0∈Rx_0 \in R$ 和初始步长t，有
$\bf x_k=\bf x_{k-1}-t \bigtriangledown f(\bf x_{k-1})$
将 $f(x)f(\bf x)$ 在 $xk−1\bf x_{k-1}$ 处做二阶泰勒展开，并省略高阶项
$f(\bf x)=f(\bf x_{k-1})+\left \langle \bf x-\bf x_{k-1}, \bigtriangledown f(\bf x_{k-1})\right \rangle +\frac{ \left \langle \left \|\bf x-\bf x_{k-1} \right \|_2^2 , \bigtriangledown ^2f(\bf x_{k-1})\right \rangle}{2}$
结合上述公式，可得
$\bf x_k =\arg \min _{\bf x} \left \{ f(\bf {x_{k-1}})+\left \langle \bf {x}-\bf {x_{k-1}},\bigtriangledown f(x_{k-1}) \right \rangle +\frac{\left \| x-x_{k-1} \right \|_2^2 }{2t} \right \}$
忽略常数项，则上式又可写成
$\begin{aligned} \bf x_k&=\arg \min _{\bf x} (\bigtriangledown \bf f(x_{k-1}))^T(x-x_{k-1})+\frac{1}{2t}(x-x_{k-1})^T(x-x_{k-1}) \\ &=\arg \min _{\bf x} \bf \frac{1}{2t} \left [ x-(x_{k-1}-2t\bigtriangledown f(x_{k-1}) \right ]^T(x-x_{k-1}) \end{aligned}$
可见有两个零点，取中点得到函数的最小值
$\begin{aligned} \bf x_k&=\bf \frac{1}{2}\left [ x_{k-1}-2t\bigtriangledown f(x_{k-1})+x_{k-1} \right ] \\ &=\bf x_{k-1}-t\bigtriangledown f(x_{k-1}) \end{aligned}$
将上述的梯度法思想用到 $L_1$ 正则化问题，得到迭代公式
$\bf x_k =\arg \min _{\bf x} \left \{ f(\bf {x_{k-1}})+\left \langle \bf {x}-\bf {x_{k-1}},\bigtriangledown f(x_{k-1}) \right \rangle +\frac{\left \| x-x_{k-1} \right \|_2^2 }{2t }+\lambda \left \| x \right \|_1 \right \}$
忽略常数项，则上式又可写成
$\bf x_k =\arg \min _{\bf x} \left \{\frac{\left \| x-(x_{k-1}-t\bigtriangledown f(x_{k-1}) )\right \|_2^2 }{2t }+\lambda \left \| x \right \|_1 \right \}$

考虑一般的优化问题
$\begin{aligned} \bf x_k &=\bf \arg \min_x \left \{\frac{\left \| x-s\right \|_2^2 }{2t }+\lambda \left \| x \right \|_1 \right \} \\ &= \arg \min_x \sum _{i=1}^n \frac{1}{2t}(x_i-s_i)^2+\lambda \left | x_i \right | \end{aligned}$
令 $g(xi)=12t(xi−si)2+λ∣xi∣g(x_i)=\frac{1}{2t}(x_i-s_i)^2+\lambda \left | x_i \right |$ ，对 $g(x_i)$ 求导并令其等于0，
$\begin{aligned} &\frac{\mathrm{d}g }{\mathrm{d}x_i} =\frac{1}{t}(x_i-s_i)+sgn(x_i)=0 \\ &\Longrightarrow x_i=s_i-\lambda t·sgn(x_i) \end{aligned}$
即当 $x_i>0$ 时， $xi=si−tλx_i=s_i-t\lambda$ ；当 $x_i=0$ 时， $x_i=s_i=0$ ； $x_i《0$ 时， $xi=si+tλx_i=s_i +t\lambda$ .\
所以， $\begin{cases} x_i=s_i-t\lambda & \text{ if } s_i>t\lambda \\ x_i=0 & \text{ if } -t\lambda \le s_i \le t\lambda \\ x_i=s_i+t\lambda & \text{ if } s_i<-t\lambda \end{cases}$
上式可进一步化简，得
$x_i=\max( \left | s_i \right | -\lambda t,0)·sgn(s_i)=P_{\lambda t}(s)$
即
$\bf x_k=P_{\lambda t}(s)$

综上所述，方程的解可写为
$\bf x_k=P_{\lambda t}(x_{k-1}-t\bigtriangledown f(x_{k-1}))$
其中， $PλtP_{\lambda t}$ 为软阈值算子，步长 $t$ 可取 $1L(▽f)\frac{1}{L(\bigtriangledown f)}$ 。

2.1、 $L_{1/2}$ 正则化算法

2008年，徐宗本在《 $L_{1/2}$ 正则化》中证明, $L_{1/2}$ 正则化子比 $L_{1}$ 正则化子具有更好的稀疏性和稳健性。
在这里插入图片描述
文献中为了求解 $L_{1/2}$ 正则化问题，提出重赋权迭代求解思想，将 $L_{1/2}$ 正则化问题转化为 $L_{1}$ 正则化问题
$x_{k+1}=\arg \min _x \left \| y-Ax \right \| _2^2+\lambda \sum_{i=1}^N \frac{\left | x_{i} \right |}{\sqrt{\left | x_{i,k} \right | } }$
因为 $x_i$ 可能出现0，为了保证算法可实施，可采用 $1∣xi,k∣+ϵ\frac{1}{\sqrt{\left | x_{i,k} \right |}+\epsilon}$ 替代 $1∣xi,k∣\frac{1}{\sqrt{\left | x_{i,k} \right |}}$ ，即
$x_{k+1}=\arg \min _x \left \| y-Ax \right \| _2^2+\lambda \sum_{i=1}^N \frac{\left | x_{i} \right |}{\sqrt{\left | x_{i,k} \right | } +\epsilon}$

三、算例

3.1、例1——高斯分布矩阵

数据源：
1、随机产生 $250 \times 500$ 的高斯信号矩阵A，矩阵条件数为 5.5415
2、随机产生 $500 \times 1$ 的高斯分布数据 $x\bf x$ ，再随机令其中20个元素非零，其余为零。。由 $\bf x=y$ ，可3、得到数据 $y\bf y$
对得到的数据 $y\bf y$ ，施加 $1%1\%$ 的随机噪声

计算结果：
在这里插入图片描述

在这里插入图片描述

3.2、例2-积分方程

数据源：

1、考虑一个卷积型积分方程例子：
$\int_0^1K(x,t)g(t) \mathrm{d} t=f(x),0\le x\le1$
其中核函数 $K(x,t)=e^{xt}$ 。当核函数矩阵为 $20 \times 20$ 时，其条件数为2463.
2、随机产生 $20 \times 1$ 的高斯分布数据 $x\bf x$ ，再随机令其中5个元素非零，其余为零。由 $\bf x=y$ ，可得到数据 $y\bf y$
3、对得到的数据 $y\bf y$ ，施加 $1%1\%$ 的随机噪声
在这里插入图片描述

3.3、例3-Hilbert矩阵

数据源：
1、产生 $500 \times 500$ 的Hilbert矩阵A，矩阵条件数为 $6.8337 \times 10^{20}$
2、随机产生 $500 \times 1$ 的高斯分布数据 $x\bf x$ ，再随机令其中20个元素非零，其余为零。由 $\bf x=y$ ，可得到数据 $y\bf y$
3、对得到的数据 $y\bf y$ ，施加 $1%1\%$ 的随机噪声
在这里插入图片描述