模型优化方法小结

最新推荐文章于 2025-09-08 23:22:44 发布

原创最新推荐文章于 2025-09-08 23:22:44 发布 · 5.5k 阅读

CC 4.0 BY-SA版权

最近的研究设计并建立了一些优化模型，其中的一些优化方法值得总结。比如，当遇到如下模型：

m i n U T U = I ∥ X - U T P ∥ 2 F

$\mathop{min}_{U^TU=I}\|X-U^TP\|_F^2$

上述模型中 $U$ 为正交矩阵，如何优化求解 $U$ 呢？我们将优化的目标函数进行trace展开：

∥ X - U T P ∥ 2 F = T r (X T X) + T r (P T P) - 2 T r (X T U T P)

$\|X-U^TP\|_F^2=Tr(X^TX)+Tr(P^TP)-2Tr(X^TU^TP)$

那么最小化原始的目标函数，则等价为最大化如下目标函数：

m a x U T U = I T r (X T U T P)

$\mathop{max}_{U^TU=I}Tr(X^TU^TP)$

新的目标函数有如下性质：

T r (X T U T P) = T r (U T P X T) \leq \sum i = 1 n σ i (U T) * σ i (P X T) = \sum i = 1 n σ i (P X T)

$Tr(X^TU^TP)=Tr(U^TPX^T)\leq \sum_{i=1}^n \sigma_i(U^T) * \sigma_i(PX^T)=\sum_{i=1}^n \sigma_i(PX^T)$

其中 $\sigma_i$ 表示矩阵的第 $i$ 大的奇异值。现在对 $PX^T$ 进行奇异值分解，得到 $PX^T=ASB^T$ (SVD分解)；那么当 $U=AB^T$ 时， $Tr(U^TPX^T)$ 取最大值。因为如下：

T r (U T P X T) = T r (B A T * A S B T) = T r (S) = \sum i = 1 n σ i (P X T)

$Tr(U^TPX^T)=Tr(BA^T*ASB^T)=Tr(S)=\sum_{i=1}^n\sigma_i(PX^T)$

所以最终的 $U=AB^T$ ，其中的 $A,B$ 为 $PX^T$ 的奇异值分解。

有时我们建立的数据模型有如下形式，其中数据 $X=[x_1,\cdots,x_N]\in R^{m \times N}$ ， $B=[b_1,\cdots,b_N]\in R^{m \times N}$ ：

m i n B, W μ 2 ∥ X - B ∥ 2 F + λ \sum n = 1 N ∥ b n + 1 - W b n ∥ 22

$\mathop{min}_{B,W} \frac{\mu}{2}\|X-B\|_F^2+\lambda \sum_{n=1}^N \|b_{n+1}-Wb_n\|_2^2$

为了更好的优化求解上式，我们需要对第二项进行简单变形得到关于 $B$ 的形式，由此我们引入矩阵 $H,h$ ，如下：

H = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 01 ⋮ 00 00 ⋮ 00 \dots \dots ⋱ \dots \dots 00 ⋮ 01 0000 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ \in R N \times N

$H= \left[ \begin{matrix} 0 & 0 & \cdots & 0 & 0 \\ 1 & 0 & \cdots & 0 & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 &0 & \cdots & 0 & 0 \\ 0 & 0 & \cdots & 1 & 0 \\ \end{matrix} \right] \in R^{N\times N}$

h = [0, 0, \dots, 0, 1] T \in R N

$h=[0,0,\cdots,0,1]^T\in R^N$

有了 $H,h$ ，上述的目标函数可改写为：

m i n B, W μ 2 ∥ X - B ∥ 2 F + λ ∥ B H - W B ∥ 2 F - λ ∥ W B h ∥ 22

$\mathop{min}_{B,W} \frac{\mu}{2}\|X-B\|_F^2+\lambda \|BH-WB\|_F^2-\lambda \|WBh\|_2^2$

针对 $B$ 的优化，可以采取一种比较简便的变形。我们引入vec堆叠操作符，将矩阵拉为向量；目标函数则变为：（这里使用了堆叠操作符的性质： $vec(ASB)=(B^T\otimes A)*vec(S)$ ， $\otimes$ 为克罗内克积）

m i n α μ 2 ∥ x - α ∥ 22 + λ ∥ P α ∥ 22 - λ ∥ Q α ∥ 22

$\mathop{min}_\alpha \frac{\mu}{2} \|x-\alpha\|_2^2 + \lambda \|P\alpha\|_2^2- \lambda \|Q\alpha\|_2^2$

其中 $vec(X)=x,vec(B)=\alpha,P=(H^T\otimes I_m)-(I_N\otimes W),Q=h^T\otimes W$ 。上述目标函数优化转换为对 $\alpha$ 的优化求解。其实上述目标函数中虽然有 $-\lambda \|Q\alpha\|_2^2$ 项的存在，但是此目标函数关于 $\alpha$ 是凸的，因为可以证明 $P^TP-Q^TQ$ 正定。则 $\alpha$ 有闭合解：