SLAM中最小二乘优化

最新推荐文章于 2024-04-03 11:13:13 发布

原创

最新推荐文章于 2024-04-03 11:13:13 发布 · 1.5k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #线性代数 #SLAM #最优化

本文深入探讨SLAM中的最小二乘优化，包括BA（Bundle Adjustment）的本质，线性和非线性最小二乘问题，以及SLAM常用的迭代优化算法，如高斯-牛顿法、 levenberg-marquardt 算法等。通过矩阵分解和分块消元方法求解非线性最小二乘问题，并讨论了鲁棒核函数在处理异常值时的重要性。

文章目录

BA最小二乘的本质

BA优化的是最小二乘问题，那么为什么可以使用最小二乘来估计呢？小二乘问题与概率之间的关系：

使用最大后验概率（MAP）来得到状态量，其中z是观测值，x是状态：
$\hat { \mathbf { x } } = \arg \max _ { \mathbf { x } } p ( \mathbf { x } |\mathbf { z } )\tag{1}$
使用贝叶斯展开：

$\begin{aligned} \hat { \mathbf { x } } &= \arg \max _ { \mathbf { x } } p ( \mathbf { x } | \mathbf { z }) = \arg \max _ { \mathbf { x } } \frac { p ( \mathbf { z } | \mathbf { x } ) p ( \mathbf { x } ) } { p ( \mathbf { z } ) }\\ &= \arg \max _ { \mathbf { x } } p ( \mathbf { z } | \mathbf { x } ) p ( \mathbf { x } ) \end{aligned}$

其中第一项化为：
$\mathbf { z } | \mathbf { x } ) = \prod _ { k = 0 } ^ { K } p \left( \mathbf { z } _ { k } | \mathbf { x } _ { k } \right) \tag{2}$
第二项化为：
$\mathbf { x } ) = p \left( \mathbf { x } _ { 0 } | \check { \mathbf { x } } _ { 0 } \right) \prod _ { k = 1 } ^ { K } p \left( \mathbf { x } _ { k } | \mathbf { x } _ { k - 1 } \right)\tag{3}$
第二项可以假设一个运动模型，忽略。

可以转化为最大似然估计（MLE）：
$\hat { \mathbf { x } } = \arg \max _ { \mathbf { x } }\sum _ { k = 0 } ^ { K } \log p \left( \mathbf { z } _ { k } | \mathbf { x } _ { k } \right)\tag{4}$
其中使用高斯模型来假设：
$\log p \left( \mathbf { z } _ { k } | \mathbf { x } _ { k } \right) = - \frac { 1 } { 2 } \left( \mathbf { z } _ { k } - z(\mathbf { x } _ { k }) \right) ^ { T } \mathbf { \Sigma } _ { k } ^ { - 1 } \left( \mathbf { z } _ { k } - z(\mathbf { x } _ { k }) \right) - \frac { 1 } { 2 } \log \left( ( 2 \pi ) ^ { M } \operatorname { det } \mathbf { \Sigma } _ { k } \right) \tag{5}$
最后一项与状态无关，因此MLE可以化为：
$\hat { \mathbf { x } } = \arg \min _ { \mathbf { x } }\sum _ { k = 0 } ^ { K }\|r(\mathbf{z}_k, \mathbf{x}_k)\|^2_{\Sigma_k} \tag{6}$
其中残差项为马氏距离：
$\|r\|^2_{\Sigma}=r^T\Sigma^{-1}r \tag{7}$
这样就转化为了非线性最小二乘问题。

最小二乘服从卡方分布
$\mathbf { x } - \mathbf { m } ) ^ { T } \mathbf { \Sigma } ^ { - 1 } ( \mathbf { x } - \mathbf { m } ) \sim \chi _ { n } ^ { 2 }\tag{8}$

这相当于一种加权的最小二乘。

最小二乘问题（Least-squares Minimization）

对于线性方程组，解的判别条件如下：

$A{\bf x}={\bf 0}$ 总有解，至少有零解

$A_{m\times n}{\bf x}={\bf 0}$

当 $r (A) = n$ ，只有零解
当 $r (A) < n$ ，有无穷多解

$A_{m×n}{\bf x}={\bf b}$

当 $r (A) \neq = r (A ∣ b)$ ，无解
当 $r (A) = r (A ∣ b) = n$ ，有唯一解
当 $r (A) = r (A ∣ b) = r < n$ ，有无穷多解

针对上面第三个方程，根据未知数和方程数量的关系可以分为以下几种情况：

如果 $m < n$ ，未知数大于方程数。那么解不唯一，存在一个解矢量空间。

如果 $m = n$ ，那么只要 $A$ 可逆（非奇异，也就是满秩）就有唯一解，解为 $x=A^{−1}b$ 。

如果 $m > n$ ，方程数大于未知数。方程一般没有解，除非 $\bf b$ 属于 $A$ 的列向量组成的子空间。

sss
这里介绍针对 $A x = b$ 使用直接方法进行求解，即不使用迭代的方式。

超定方程

考虑 $m > n$ ， $r (A) = n$ ，这时无解，但可以找到一个最小二乘解，解最小二乘的解法有奇异值分解、正规方程和QR分解，可以参考许可师兄的博客。

正规方程的几何解释：

我们要寻找的是使得 $\|A {\bf x}-{\bf b} \|$ 最小的矢量 ${\bf x}$ 的值，把 $A$ 写成列空间的形式 $A=(a_1,a_2,...,a_n)$ ，当 ${\bf x}$ 取不同的值时， $A{\bf x}$ 看作是列空间 $A$ 生成的子空间，但是在存在一个最接近向量 ${\bf b}$ 的子空间，我们要找到这个子空间。

针对这个子空间的理解：

假设 $A$ 是 $m\times n$ 维（ $m > n$ ）的矩阵，那么就可以理解为在m维的空间上有以这n个（或者更少，据相关性决定）向量为基底组成的子空间中，找到一个向量与m维空间中的一个向量b最接近，由于是子空间中，若b不在这个子空间中那么是找不到解析解的，只有最接近的最小二乘解，也就是图中垂直的情况。

如图，平面为 $R a n k (A)$ 的子空间，当向量 $A{\bf x}-{\bf b}$ 垂直如图的列空间时最小，其它情况都是斜边比它大。
在这里插入图片描述

因此让向量 $A{\bf x}-{\bf b}$ 垂直与 $A$ 的列空间，得到：
$A^T(A{\bf x}-{\bf b})={\bf 0} \tag{9}$
整理得到：
$A^TA{\bf x}=A^T{\bf b} \\ {\bf x}=(A^TA)^{-1}A^T{\bf b} \tag{10}$

为什么有解，因为 $A^Tb$ 在 $A^TA$ 的列空间中。

加权的最小二乘问题：
$\left( \mathrm { A } ^ { \mathrm { T } } \mathrm { CA } \right) \mathbf { x } = \mathrm { A } ^ { \mathrm { T } } \mathrm { Cb } \tag{11}$

适定方程

考虑 $A\in R^{n\times n}$ ， $r (A) = n$ 的情况，这种情况下通常可以使用公式（12）求解，但是当矩阵维数很大时，或者要求实时性时就变得不实用了。
${\bf x=A^{-1}b} \tag{12}$
针对稀疏模式，我们可以利用一些系数矩阵结构来更快的进行求解。通常包括带状（如下图）、分块对角和稀疏矩阵。

在这里插入图片描述

通常方便求解的一些特殊系数矩阵包括：

对角矩阵：直接可以求出。

上三角矩阵：从最后一个未知数开始解，使用后向带入（back-substitution）的方式。

下三角矩阵：从第一个未知数开始解，使用前向带入（forward-substitution）的方式。

正交矩阵：转置求解，特殊的有Householder矩阵 $A=I-2uu^T$ 形式可以加快求解。

排列矩阵：实现矩阵的行交换和列交换的矩阵，只有1或者0。直接求解。

矩阵的求解方法可以分为：

因式分解的方法，把系数矩阵A分解成上面所描述的一些方便求解的矩阵的连乘形式进行求解。

分块消元的方法，对系数矩阵具有特殊结构的形式，可以进行分块消元来求解。

因式分解

LU分解

针对非奇异矩阵 ，可以因式分解为
$\tag{13}$
式中P是排列矩阵，L是单位下三角矩阵，U是上三角矩阵。

带状结构矩阵和稀疏矩阵可以获得更快的运算。对于稀疏矩阵有如下分解：
$A=P_1LUP_2 \tag{14}$
LU若是稀疏的，可以加快求解，它的稀疏性依赖于排列矩阵 $P_1P_2$ 的选择。系数矩阵的LU分解成本依赖于维数、非零元素的个数、稀疏模式和使用的算法等。

Cholesky分解

针对对称正定矩阵，可以因式分解为
$A=LL^T \tag{15}$
其中L为下三角非奇异矩阵，对角元素是正数。快于LU分解一倍，对带状和稀疏矩阵，使用特殊算法复杂度远低于稠密矩阵的复杂度。

对于稀疏矩阵，有分解形式：
$A=PLL^TP^T \tag{16}$
同样排列矩阵P对L的稀疏性有很大影响，它由系数矩阵的稀疏模式所决定，不取决于非零元素的具体值。因此可以分为两步骤，符号因式分解和数值因式分解。（LU分解的P依赖于具体数值）

LDLT分解

针对非奇异对称矩阵，可以分解为
$A=PLDL^TP^T \tag{17}$

最低0.47元/天解锁文章

6 条评论

一点点来 2020.06.03
若是非线性方程为马氏距离方程，应该如何求x，

一点点来 2020.06.03
即公式11的C如何确定
- 一点点来回复啊啦啦工业 2020.06.03
  十分感谢，有些没听懂，我在研究一下，再请教。再次感谢
- 啊啦啦工业回复一点点来 2020.06.03
  [reply]qq_37018213[/reply]C就是权重。一般根据模型来确定，或者鲁邦核函数形式。通常把它开根号合并到A和b内，去求解。

一点点来 2020.06.03
博主写的特别好，但是我有疑惑，就是加权最小二乘解法中的C是什么啊？刚刚开始学习，望指教
- 软件老兵回复一点点来 2023.08.09
  是协方差矩阵的逆，这个东西是先验统计出来的，比如：成人身高和体重数据的协方差不一样。用来让不同协方差数据在计算误差代价时统一，参考马氏距离。