总体最小二乘 total least-squared TLS

原创已于 2023-12-05 15:58:57 修改 · 1.1k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#算法

于 2023-12-05 15:42:41 首次发布

文章讨论了在数据描述中，当行数大于方程数时如何通过奇异值分解(SVD)解决总最小二乘问题。通过Eckart-Young定理找到秩k的最优近似，特别强调了在Frobenius范数约束下的求解过程。

0 TL; DR

求 $(\mathbf{Y}+\tilde{\mathbf{Y}})_{m\times k}=(\mathbf{X}+\tilde{\mathbf{X}})_{m\times n}\mathbf{A}_{n\times k}$ 在最小化 $\Vert[\tilde{\mathbf{X}}\;\tilde{\mathbf{Y}}]\Vert ^2_F$ 意义下的最优解，先对合并矩阵做奇异值分解

$[\mathbf{X}\;\mathbf{Y}]=\mathbf{U\Sigma}\left[\begin{array}{cc}\mathbf{V}_{pp}&\mathbf{V}_{pq}\\\mathbf{V}_{qp}&\mathbf{V}_{qq}\end{array} \right ]^T$

其中 $\mathbf{V}_{pp}$ 是 $n$ 阶方阵， $\mathbf{V}_{qq}$ 是 $k$ 阶方阵，则 $\mathbf{A}_{\rm{tls}}=-\mathbf{V}_{pq}\mathbf{V}_{qq}^{-1}$

[~,~,V] = svd([X Y]);
A_tls = -V(1:n,n+1:end)/V(n+1:end,n+1:end);

1 问题描述

给定一组数据 $[\mathbf{X}_{m\times n} \mathbf{Y}_{m\times k}]$ ，描述这组数据的线性模型可以写成 $\mathbf{Y}\approx\mathbf{XA}$ ， $\mathbf{X}$ 的行数要大于 $\mathbf{X}$ 的秩 $(m>n)$ ，或者说方程数要大于未知数个数，最小二乘只考虑最小化输出 $\mathbf{Y}$ 的误差

$\rm{min}\Vert\tilde{\mathbf{Y}}\Vert^2_F\;\;\rm{s.t.}\;\mathbf{Y}+\tilde{\mathbf{Y}}=\mathbf{XA}$

上面的式子一般会写成大家熟悉的形式 $\rm{min}\Vert\mathbf{Y}-\mathbf{XA}\Vert^2_F$ ，解就是大家喜闻乐见的

$\mathbf{A}_{\rm{ls}}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{Y}$

现在考虑 $\mathbf{X}$ 也有相当的误差，问题变成

$\rm{min}\Vert[\tilde{\mathbf{X}}\;\tilde{\mathbf{Y}} ]\Vert^2_F\;\;\rm{s.t.}\;\mathbf{Y}+\tilde{\mathbf{Y}}=(\mathbf{X}+\tilde{\mathbf{X}})\mathbf{A}$

其中 $\Vert\mathbf{Z}\Vert^2_F$ 是 $\mathbf{Z}$ 的Frobenius范数 $\Vert\mathbf{Z}\Vert^2_F=\rm{trace}(\mathbf{Z}^T\mathbf{Z})=\sum_{i,j}Z_{ij}^2$

约束条件可以改写成

$[\mathbf{X}+\tilde{\mathbf{X}},\;\mathbf{Y}+\tilde{\mathbf{Y}}]\left[\begin{array}{c}\mathbf{A}_{n\times k}\\-\mathbf{I}_{k\times k} \end{array} \right ]=\mathbf{0}_{m\times k}$

2 奇异值分解

$\mathbf{X}$ 的奇异值分解为 $\mathbf{X}=\mathbf{U\Sigma V}^T$

$\mathbf{X}_{m\times n}=\left[\begin{array}{cccc}\mathbf{u}_1&\mathbf{u}_2&\ldots&\mathbf{u}_m\end{array}\right]_{m\times m}\left[\begin{array}{cccc}\sigma_1&&&\\&\sigma_2&&\\\ &&\ddots&\\ &&&\sigma_n\\&&&\\&&& \end{array}\right]_{m\times n}\left[\begin{array}{c}\mathbf{v}^T_1\\\mathbf{v}^T_2\\\vdots\\\mathbf{v}^T_n\end{array}\right]_{n\times n}$ $n+k$

$\mathbf{U},\mathbf{V}$ 是正交矩阵， $\mathbf{U}^T\mathbf{U}=\mathbf{I},\mathbf{V}^T\mathbf{V}=\mathbf{I}$ ， $\sigma_1\geq\sigma_2\geq\ldots\sigma_n\geq0$ ，对于秩为 $n$ 的矩阵 $\mathbf{X}$ ， $\mathbf{\Sigma}$ 最多只有 $n$ 个不为零的对角元素，因此 $\mathbf{X}$ 可以写成 $\mathbf{X}=\sum_{i=1}^n\sigma_i\mathbf{u}_i\mathbf{v}_i^T$

在这里引入Eckart-Young定理， $\hat{\mathbf{X}}_k=\sum_{i=1}^{k}\sigma_i\mathbf{u}_i\mathbf{v}_i^T$ 是

$\underset{\mathbf{X}_k,\rm{rank}(\mathbf{X}_k)=k}{\min}\Vert\mathbf{X}-\mathbf{X}_k\Vert^2_F$

的最优解，即 $\hat{\mathbf{X}}_k$ 是 $\mathbf{X}$ 的最优rank-k近似

3 以SVD求解TLS问题

对 $[\mathbf{X}\; \mathbf{Y}]$ 做奇异值分解

$[\mathbf{X}\;\mathbf{Y}]\left[\begin{array}{cc}\mathbf{V}_{pp}&\mathbf{V}_{pq}\\\mathbf{V}_{qp}&\mathbf{V}_{qq} \end{array} \right ]=\left[\begin{array}{cc}\mathbf{U}_p&\mathbf{U}_q\end{array} \right ]\left[\begin{array}{cc}\mathbf{\Sigma}_p&\\&\mathbf{\Sigma}_q \end{array} \right ]$

$[\mathbf{X}\;\mathbf{Y}]\left[\begin{array}{c}\mathbf{V}_{pq}\\\mathbf{V}_{qq} \end{array} \right ]=\mathbf{U}_q\mathbf{\Sigma}_q$

其中 $\mathbf{V}_{pp},\mathbf{\Sigma}_p$ 是 $n$ 阶方阵， $\mathbf{V}_{qq},\mathbf{\Sigma}_q$ 是 $k$ 阶方阵， $\mathbf{U}_p$ 是 $m\times n$ 矩阵， $\mathbf{U}_q$ 是 $m\times k$ 矩阵，留意到 $\mathbf{\Sigma}$ 只有 $n+k$ 行，这是因为 $[\mathbf{X}\; \mathbf{Y}]$ 最多只有 $n+k$ 个不为零的奇异值， $n+k$ 行后面的可以省略。现在定义 $[\mathbf{X}+\tilde{\mathbf{X}}\;\mathbf{Y}+\tilde{\mathbf{Y}}]$ 是 $[\mathbf{X}\; \mathbf{Y}]$ 的rank-k近似

$[\mathbf{X}+\tilde{\mathbf{X}}\;\mathbf{Y}+\tilde{\mathbf{Y}}]\left[\begin{array}{cc}\mathbf{V}_{pp}&\mathbf{V}_{pq}\\\mathbf{V}_{qp}&\mathbf{V}_{qq} \end{array} \right ]=\left[\begin{array}{cc}\mathbf{U}_p&\mathbf{U}_q\end{array} \right ]\left[\begin{array}{cc}\mathbf{\Sigma}_p&\\&\mathbf{0}_{k\times k} \end{array} \right ]$

对比可得

$[\tilde{\mathbf{X}}\;\tilde{\mathbf{Y}}]\left[\begin{array}{cc}\mathbf{V}_{pp}&\mathbf{V}_{pq}\\\mathbf{V}_{qp}&\mathbf{V}_{qq} \end{array} \right ]=\left[\begin{array}{cc}\mathbf{U}_p&\mathbf{U}_q\end{array} \right ]\left[\begin{array}{cc}\mathbf{0}_{n\times n}&\\&-\mathbf{\Sigma}_q \end{array} \right ]$

$[\tilde{\mathbf{X}}\;\tilde{\mathbf{Y}}]\left[\begin{array}{c}\mathbf{V}_{pq}\\\mathbf{V}_{qq} \end{array} \right ]=-\mathbf{U}_q\mathbf{\Sigma}_q$

即得

$[\mathbf{X}+\tilde{\mathbf{X}}\;\mathbf{Y}+\tilde{\mathbf{Y}}]\left[\begin{array}{c}\mathbf{V}_{pq}\\\mathbf{V}_{qq} \end{array} \right ]=\mathbf{0}_{m\times k}$