Bundle Adjustment简述

最新推荐文章于 2025-09-14 05:10:50 发布

原创

最新推荐文章于 2025-09-14 05:10:50 发布 · 6w 阅读

259

895 ·

CC 4.0 BY-SA版权

文章标签：

#BA #SLAM #SFM

文章目录

换地方了，新链接，以后会多在新地方更新一些东西

笔者到底想讲些啥？

在SFM（structure from motion）的计算中BA（Bundle Adjustment）作为最后一步优化具有很重要的作用，在近几年兴起的基于图的SLAM（simultaneous localization and mapping）算法里面使用了图优化替代了原来的滤波器，这里所谓的图优化其实也是指BA。其实很多经典的文献对于BA都有深深浅浅的介绍，如果想对BA的全过程做一个全面的更深层次的了解，推荐阅读 Bundle Adjustment —A Modern Synthesis，但是BA的内容确实太多太杂了，刚对其了解的时候往往会陷入其局部的计算中不能自拔，因此笔者准备对其进行一个比较全局一点的介绍，希望读者可以比较轻松的一览BA的全过程而不是陷入其局部的繁琐的计算中，同时也会尽量对其需要的数学工具介绍全面，如有错误和遗漏还望指正。

如果读者对以下内容有基本了解那可就太棒棒了！

射影相机几何模型

对极几何

凸优化

矩阵理论

这才是真的开始

Bundle Adjustment（之后在不引起歧义的情况下用BA代替，你问为什么？笔者懒啊-。-），大概似乎也许好像有近百年的历史了吧（没错，可以称为state-of-art的视觉SLAM在几年前才用上将近上百岁的算法），中文译为光束法平差，大概大家看到更多的翻译可能为束调整、捆集调整或者捆绑调整等等。这么多翻译笔者最喜欢的还是光束法平差，一看就比其它的更专业逼格更高嘛，其它的翻译都太直译了。当然最重要的是光束法平差完美的表达了BA的来源、原理和计算过程，而其他的只是强调了将很多数据放在一起进行优化计算这个事。不信？那我们来分析一下嘛。

所谓bundle，来源于bundle of light，其本意就是指的光束，这些光束指的是三维空间中的点投影到像平面上的光束，而重投影误差（后面会讲这到底是个什么鬼）正是利用这些光束来构建的，因此称为光束法强调光束也正是描述其优化模型是如何建立的。剩下的就是平差，那什么是平差呢？借用一下百度词条 测量平差 中的解释吧。

由于测量仪器的精度不完善和人为因素及外界条件的影响，测量误差总是不可避免的。为了提高成果的质量，处理好这些测量中存在的误差问题，观测值的个数往往要多于确定未知量所必须观测的个数，也就是要进行多余观测。有了多余观测，势必在观测结果之间产生矛盾，测量平差的目的就在于消除这些矛盾而求得观测量的最可靠结果并评定测量成果的精度。测量平差采用的原理就是“最小二乘法”。

平差也就正好表述了为什么需要BA以及BA这个优化过程到底是怎么进行的。

BA模型到底是怎么来的？

感觉前面废话说了一大堆，解释了半天BA的中文翻译，那么BA到底是干嘛的呢？经过前面的铺垫，用一句话来描述BA那就是，BA的本质是一个优化模型，其目的是最小化重投影误差

本质是一个优化模型应该很容易理解，那么什么是重投影误差呢？投影自然是个几何的问题，既然是几何问题那这个时候来个图自然就是最棒棒了！

看！这些五颜六色的线就是我们讲的光束啦！那现在就该说下什么叫重投影误差了，重投影也就是指的第二次投影，那到底是怎么投影的呢？我们来整理一下吧：

其实第一次投影指的就是相机在拍照的时候三维空间点投影到图像上
然后我们利用这些图像对一些特征点进行三角定位（triangulation，很多地方翻译为三角化或者三角剖分等等，当然笔者最喜欢的还是三角定位，显然是利用几何信息构建三角形来确定三维空间点的位置嘛，相关内容请参考对极几何）
最后利用我们计算得到的三维点的坐标（注意不是真实的）和我们计算得到的相机矩阵（当然也不是真实的）进行第二次投影，也就是重投影

现在我们知道什么是重投影了，那重投影误差到底是什么样的误差呢？这个误差是指的真实三维空间点在图像平面上的投影（也就是图像上的像素点）和重投影（其实是用我们的计算值得到的虚拟的像素点）的差值，因为种种原因计算得到的值和实际情况不会完全相符，也就是这个差值不可能恰好为0，此时也就需要将这些差值的和最小化获取最优的相机参数及三维空间点的坐标。

进入数学模式！

感觉像写小说一样写了一堆堆的文字，既然BA是个数学问题，不用数学讲讲好像不太行，接下来就看看BA的数学模型是怎么构建的吧。

对BA有点了解的同学可能知道BA是一个图优化模型，那首先肯定要构造一个图模型了（没学过图论也没事，后面还是会回到一般的优化模型）。既然是图模型那自然就有节点和边了，这个图模型的节点由相机 $P_i$ 和三维空间点构成 $X_j$ 构成，如果点 $X_j$ 投影到相机 $P_i$ 的图像上则将这两个节点连接起来。还是来张图吧。
BAgraph
这样就一目了然了。那么我们现在就可以通过这个图来构造优化模型了。

令点 $X_j$ 在相机 $P_i$ 拍摄到的图像归一化坐标系上的坐标为 $k(u_{ij}^T,1)^T=K_i^{-1}x_{ij}$ ，其重投影后的图像归一化坐标系下坐标为 $k'(v_{ij}^T,1)^T=K_i^{-1}P_iX_j$ ，其中 $K_i^{-1}$ 是为了在计算时能不受相机内参影响 $k$ 和 $k^{'}$ 是将齐次坐标转换为非齐次坐标的常数项，可以得到该重投影误差为
$e_{ij}=u_{ij}-v_{ij}$
BA是要将所有重投影误差的和最小化，那么这里自然就要开始求和了。
$\min_{R_i,t_i,X_j} \sum_{i,j} \sigma_{ij}\|u_{ij}-v_{ij}\|_2$
其中当点 $X_j$ 在相机 $P_i$ 中有投影时 $\sigma_{ij}=1$ ，否则为 $\sigma_{ij}=0$ 。

到此我们就得到了BA优化模型的数学形式了。

接下来就应该开始计算了！

既然是优化模型，那自然就应该用各种优化算法来进行计算了。这里先小小的剧透一下，BA现在基本都是利用LM（Levenberg-Marquardt）算法并在此基础上利用BA模型的稀疏性质来进行计算的，LM算法是最速下降法（梯度下降法）和Gauss-Newton的结合体，至于是怎么结合的接下来就来慢慢介绍了。

提前给定
$\mathbf{f(x)} = \sum_{i,j} \sigma_{ij}\|u_{ij}-v_{ij}\| _2^2$

最低0.47元/天解锁文章

56 条评论

起名废不知道该叫什么名字 2023.01.26
感谢博主的介绍，非常有用！

rainbow70626 2022.09.11
博主：基于博文中的两个空间点+两个相机的假设，博文中给出的雅可比矩阵J貌似不正确。可否参考文章https://blog.youkuaiyun.com/jinshengtao/article/details/53365061补充带0块的完整的雅可比矩阵J，以便于理解。谢谢。

rainbow70626 2022.09.11
“都是计算量”应该是“但是计算量”

空白不对照 2022.05.04
茅塞顿开，谢谢博主

独自悠哉独自在 2022.03.16
笔者是泡泡机器人机构下的工作人员吗
- OptSolution回复独自悠哉独自在 2022.03.17
  是的，不过泡泡机器人是社群，不能算机构吧

big_potato1 2021.12.23
[quote]Bundle adjustment—a modern synthesis[/quote]想详细看看旋转矩阵的更新方法，应该看什么文献啊？博主有推荐吗，先谢过啦~
- OptSolution回复big_potato1 2021.12.23
  建议直接SLAM十四讲吧

aurorajiang 2021.04.21
从其他博主引用的文章点过来的，非常感谢，说明非常清楚。

渝州菜鸡 2021.01.27
牛逼，讲的好，BA还是永远的神啊

一舫 2020.07.06
感谢博主，清晰易懂

weixin_43130407 2020.05.13
那个高斯牛顿法里面的e函数是什么东西啊？？？
- OptSolution回复living under a waterfall 2021.10.07
  因为e就是这样设计的
- living under a waterfall回复OptSolution 2021.10.02
  为什么目标函数直接就约等于关于e的这样的的一个范数呢？没有看懂
- OptSolution回复weixin_43130407 2020.06.20
  [reply]weixin_43130407[/reply]误差