章国锋团队开启SfM新篇章!DATAP-SfM:动态感知跟踪一切!

作者 | 3D视觉工坊 编辑 | 3D视觉之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心SLAM技术交流群

本文只做学术分享,如有侵权,联系删文

0. 论文信息

标题:DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild

作者:Weicai Ye, Xinyu Chen, Ruohao Zhan, Di Huang, Xiaoshui Huang, Haoyi Zhu, Hujun Bao, Wanli Ouyang, Tong He, Guofeng Zhang

机构:Zhejiang University、Shanghai AI Laboratory

原文链接:https://arxiv.org/abs/2411.13291

1. 导读

本文提出了一种简洁、优雅和健壮的管道来估计平滑的相机轨迹并获得野外休闲视频的密集点云。传统的框架,如particles FM ~  cite { Zhao 2022 particles FM },通过顺序计算相邻帧之间的光流来获得点轨迹,从而解决了这个问题。然后,它们通过运动分割移除动态轨迹,并执行全局束调整。然而,估计两个相邻帧之间的光流并将匹配链接起来的过程会引入累积误差。此外,与单视图深度估计相结合的运动分割经常面临与尺度模糊相关的挑战。为了应对这些挑战,我们提出了一种动态感知跟踪任意点(DATAP)方法,该方法利用了一致的视频深度和点跟踪。具体来说,我们的DATAP通过估计视频序列中的密集点跟踪并预测每个点的可见性和动态来解决这些问题。通过引入一致的视频深度先验,增强了运动分割的性能。随着DATAP的集成,通过对分类为静态和可见的点跟踪执行全局束调整,而不是依赖于增量相机配准,可以同时估计和优化所有相机姿态。在动态序列(例如Sintel和TUM RGBD动态序列)和野生视频(例如DAVIS)上的大量实验表明,即使在复杂的动态挑战场景中,所提出的方法在相机姿态估计方面也实现了最先进的性能。

2. 引言

从单目视频中估计运动相机的姿态在计算机视觉和机器人学领域发挥着基础性作用,在自动驾驶、增强现实等多个领域均有应用。在日常随意拍摄的视频中,相机通常处于移动状态,而复杂的前景运动,包括人物、车辆和其他移动物体,占据了视频帧的大部分。这给在此类场景中实现稳健的相机姿态估计带来了重大挑战。

传统的间接SLAM或SfM方法通过提取和匹配高质量特征点,并利用非线性优化技术来估计相机姿态和重建三维点云,从而最小化几何重投影误差。相比之下,直接SLAM或SfM方法通过优化光度误差(假设视频外观一致)来进行相机跟踪。虽然这些方法已显示出良好效果,但在包含大量动态物体的场景中,它们往往难以实现稳健定位。这一局限性在动态物体常见的真实场景中尤为明显。

为解决这一问题,一些视觉里程计或SLAM方法使用语义或几何先验来减轻由特定类型潜在动态物体(如人或车辆)引起的干扰。然而,在实际自然场景中,一些看似静止的物体也可能呈现运动状态,例如水杯被拿起或移动,或柳枝在风中摇曳。这使得上述依赖语义约束的方法失效。另一方面,一些端到端的视觉里程计或SLAM方法通过训练数据隐式建模场景物体的复杂运动,并通过关注静态区域来估计相机姿态。然而,这些方法在推广到野外视频时面临挑战。

最近,ParticleSfM提出了一种方法,该方法涉及构建点轨迹,应用轨迹运动分割以解决动态轨迹干扰,并执行全局捆集调整以改进姿态估计。该方法在泛化性能和姿态估计准确性方面显示出前景,但也存在明显局限性:(1)基于成对光流匹配的点轨迹构建无疑会带来长期累积误差。(2)使用单目姿态估计进行运动分割存在尺度模糊问题。

基于最近表现突出的二维点跟踪方法,如TAPIR、CoTracker和Omniotion,我们提出了一种新颖的方法,称为动态感知跟踪任意点(Dynamic-Aware Tracking Any Point,DATAP),通过利用一致的视频深度估计和长期点跟踪来解决上述问题。具体而言,DATAP是一种以滑动窗口方式运行的Transformer网络。它估计视频中采样点的点跟踪和可见性。Transformer网络融合了自注意力机制和交叉注意力机制,将滑动窗口内的每条轨迹视为一个整体。这有助于利用轨迹特征之间的相关性,并促进轨迹内和轨迹间的信息交换。在滑动窗口内,每个查询点的轨迹最初设置为0。网络将通过Transformer的迭代逐步细化这些初始估计。随后的重叠窗口将基于前一个窗口的细化预测来初始化轨迹和可见性,并更新新帧的轨迹和可见性。

为估计轨迹的动态运动标签,我们在跟踪特征中融入了多层感知层。这一附加层预测动态运动的概率,类似于预测可见性的方式。这样做旨在解决仅使用二维点跟踪进行动态预测时可能出现的模糊性。受ParticleSfM启发,我们利用深度信息并设计了一个Transformer模块,以消除二维点运动分割中的模糊性。考虑到单目视频单视图深度估计所带来的尺度模糊问题,我们建议使用一致的视频深度估计进行深度初始化。

结合DATAP,我们构建了一个简洁、优雅且稳健的野外运动恢复结构(Structure from Motion,SfM)流程。在MPI Sintel数据集和TUM RGBD动态序列上的实验表明,我们的动态感知点跟踪方法结合SfM可有效提升动态场景中相机定位的准确性。我们还在如DAVIS等野外随意拍摄的视频上验证了该方法,证明了其在复杂挑战性场景中的定位鲁棒性。

3. 效果展示

给定随意的视频,我们的方法可以获得平滑的摄像机轨迹和动态场景的完整点云。从上到下:视频样本、来自COLMAP、ParticleSfM和我们的结果。

d807253cc2d331d6bc17aa4c83628514.jpeg

MPI Sintel数据集上摄像机姿态估计的定性结果。我们的方法优于现有的SOTA方法。

3893861a00389036efb648454e52f68d.png

4. 主要贡献

我们的贡献总结如下:

• 我们提出了一种新颖的动态感知跟踪任意点(DATAP)网络,能够以滑动窗口的方式同时估计点跟踪、可见性和动态性,并利用一致的视频深度先验进一步提升性能。

• 结合DATAP和全局捆集调整,我们提出了一种简洁、优雅且稳健的流程,可从随意拍摄的单目视频中生成平滑的相机轨迹和密集的点云。推荐课程:单目深度估计方法:算法梳理与代码实现

• 大量实验表明,所提方法在复杂动态挑战场景中优于当前最优方法(State-Of-The-Art,SOTA)。

5. 方法

我们的目标是通过随意拍摄的单目视频实现平滑的相机轨迹和一致的视频深度。为此,我们提出了一种动态感知跟踪任意点方法,即DATAP,以估计视频中点的轨迹及其可见性和动态特性。结合DATAP,我们正式提出了一个简洁、优雅且稳健的野外运动恢复结构流程。图2概述了我们的方法流程。

d2d9b1bde11a8b6ba8c3c729cf76f016.png

6. 实验结果

MPI Sintel数据集是一个合成自然视频序列,包含23个复杂且具有挑战性的场景,如高度动态场景、运动模糊场景、非刚性运动场景等。遵循ParticleSfM的方法,我们移除了对评估单目相机位姿无效的序列,如静态相机运动序列,留下14个序列用于比较。我们将本文方法与经典的特征点SfM方法COLMAP及其变体,以及最新的深度学习方法进行了比较。表2中的定量位姿估计结果表明,COLMAP及其变体只能在某些序列上进行位姿估计。而基于学习的最先进方法,如DROID-SLAM在动态场景中表现不佳,难以获得准确的相机轨迹。虽然最近的ParticleSfM在大多数场景中表现良好,但本文基于动态感知点跟踪的SfM方法远优于它们,在所有数据集上的绝对轨迹误差(ATE)提高了19.37%,在COLMAP子集上的ATE提高了28.57%。

6084a32b4f2640b77ad7470411209662.png

TUM RGBD数据集是评估不同挑战下SLAM或SfM算法性能的基准。为了评估本文方法在动态室内场景中的性能,我们选择了9个包含动态对象(如移动的人)的序列。由于ParticleSfM在动态场景中通常表现更好,我们选择ParticleSfM作为主要比较对象。通过运行ParticleSfM的开源代码,实验表明,ParticleSfM在TUM的9个数据集中会出现系统失败,而本文方法能够解算出相机位姿,这显示了本文方法的鲁棒性。在ParticleSfM的子集中,本文方法在ATE上提高了26.62%。

3dbf24989d6e74f21ec3f239349e60ae.png

DAVIS数据集是评估视频对象分割和跟踪(无真实相机位姿)的基准。它包含许多挑战,如多对象遮挡、复杂运动、运动模糊等。为了进一步证明本文方法的泛化能力,我们从DAVIS数据集中选择了15个序列,并定性可视化了本文方法的效果。实验表明,COLMAP只能运行DAVIS的15个序列中的10个,而ParticleSfM只能运行8个序列。它们难以获得满意的位姿估计。我们还在图5中展示了更多的定性结果。

51e666c2bbf68d228e40bd6513fc0698.jpeg

7. 总结 & 局限性

本文提出了一种具有动态感知点跟踪的结构从运动(SfM)方法,用于准确的位姿估计。本文方法能够为野外随意拍摄的视频中的动态场景获得平滑的相机轨迹和完整的点云,并且在动态场景中优于现有的SfM和SLAM方法。

局限性。尽管本文方法能够在动态场景中进行鲁棒的位姿估计和一致的视频深度估计,但它不能像实时SLAM系统那样运行,即使我们采用了基于滑动窗口的点跟踪机制。开发一种高效的动态感知点跟踪方法是一个有前景的方向。探索大规模且多样的互联网视频来训练点跟踪方法将进一步提高其鲁棒性。我们将其留作未来工作。

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行,展览面积达到2万平方米,预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展,它将全面展示新能源汽车行业的最新成果和发展趋势,同期围绕个各关键板块举办论坛,欢迎报名参加。

a3f59019a76369e385a4462a4717ded8.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

74bdbd0373374d3a4a49a5d6839cec47.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

074479e5ac505a80ec518d16ab172e3e.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

0d7852b527c2ac6dae19ad9d1a0d6deb.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值