StaticFusion: Background Reconstruction for Dense RGB-D SLAM in Dynamic Environments 论文笔记

Jumping润

已于 2022-11-27 14:02:43 修改

阅读量643

点赞数

CC 4.0 BY-SA版权

分类专栏：论文笔记文章标签：聚类 python

于 2022-07-03 17:09:06 首次发布

本文链接：https://blog.youkuaiyun.com/qq_42823167/article/details/125586544

论文笔记专栏收录该内容

24 篇文章

订阅专栏

本文介绍了一种名为StaticFusion的方法，它能在动态环境中进行稠密RGB-DSLAM背景重建。该方法通过估计相机位姿及当前帧的动静态概率分割，实现对环境静态部分的3D模型重建。利用3D模型进行帧到模型对齐，提高了相机运动估计的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

StaticFusion: Background Reconstruction for Dense RGB-D SLAM in Dynamic Environments 论文笔记

摘要

稠密RGB-DSLAM 检测移动目标并重建背景和结构

利用RGB-D图像对估计相机位姿的同时估计当前帧动/静态概率分割该分割然后用于加权密集RGB-D融合，以估计仅环境的静态部分的3D模型。通过利用3D模型进行帧到模型对齐，以及静态/动态分割，相机运动估计减少了整体漂移，并且对场景中的动态存在更加鲁棒。

创新点：

一个新的公式，同时估计相机的运动和分割当前帧内的静态对象。
仅融合时间一致数据的稠密建图系统(即，它存储过去静态的有用信息)

框架和符号

系统的输入是一堆RGB-D图像，同时利用RGB图像计算图片的强度图
在这里插入图片描述

首先，每个输入对(强度图ID，深度图ZD)通过在背景点的3D坐标上应用KMeans被分割成K个几何聚类C = {Ci，i = 1，…，K}。为了降低总的计算复杂度，假设每个聚类表现为刚体，这允许我们以聚类方式而不是以像素方式来解决静态/动态分割问题。这是一个可以接受的近似值，因为我们对估计运动物体的精确运动不感兴趣，而是专注于构建场景中静态结构的保守重建。

其次，通过在构建到该点的静态场景的当前地图内的先前相机姿势估计处放置虚拟相机来渲染人造图像对(IM，ZM)。

在给定当前图像(ID，ZD)和最后预测(IM，ZM)的情况下，我们的新步骤是联合获得摄像机运动ξ∈Se(3)和两个时间实例之间的基于运动的场景分割。每个集群i被分配一个对应于动态水平的得分bi∈[0，1]：b‘1对应于静态集群，b’0对应于移动集群，0<b<1对应于中等不确定性水平。

在计算联合估计问题的解之后，使用簇和分数来计算属于背景的每个点的每像素分割图像BD，该图像与当前颜色和深度图像(CD，ZD)一起用于加权3D融合。
框架：
在这里插入图片描述
图1：属于一个新的图像(CD,ZD)对每个像素分组得到几何聚类C。根据模型和前一帧的姿态估计T（ξ）进行预测（CM，ZM），并用于联合对准和背景分割。然后利用这两个结果对CD、ZD的静态聚类与地图进行加权融合。

相机运动和场景分割的联合估计

为了估计这两个联合性质，我们提出了一个基于两个能量项最小化的新公式：

在这里插入图片描述

其中b代表整个集合的分数。D(ξ，b)通过仅对属于静态簇的像素强制光度和几何一致性来编码直接图像对齐。第二项S(B)补充D(ξ，b)，当它们的残差很高时，强制将集群分割为动态的，反之亦然。它还包括空间正则化，以鼓励对簇的平滑分割，并利用先前的几何知识来帮助优化收敛到正确的最小值。接下来，我们给出了D(ξ，b)和S(B)的公式，并描述了如何解决全局极小化问题。

A.相机运动

对于每个新的RGB-D对，通过最小化当前RGB-D图像和从地图获得的最后一次预测之间的几何和光度学重投影误差来计算相机的增量运动。各重投影误差(或残差)定义为

在这里插入图片描述

xp为2D像素p点坐标，|·|z表示三维点的z坐标。π表示根据相机针孔模型将3D点投影到图像平面上

T(ξ)∈SE(3)是与扭曲ξ有关的齐次变换。warp函数由下式给出：

在这里插入图片描述

我们公式的创新点在于使用分数b对这些残差进行加权，以便只有与场景的静态部分相关联的残差才具有较高的贡献：

在这里插入图片描述

其中N是像素的总数，bi§是指包含p的簇i的分数。由于几何项和强度项用不同的单位计算误差，参数αi重新缩放强度项，以使其在尺度上具有与几何项类似的效果。函数F®是柯西稳健惩罚函数：

在这里插入图片描述

其中，c表示F®的拐点，并控制残差的稳健最小化程度。最后，WZ和Wi根据测量的噪声(σZ和σI)对光度和几何残差进行加权，并对通过高空间或时间梯度观察到的遮挡和不连续进行处罚：

在这里插入图片描述

在(7)和(8)中，参数KZσ和Kiσ控制噪声相对于导数的相对重要性

B.静态/动态分割

(1)中第二项的目标是将具有平均高残差的集群归类为动态的，将具有低残差的集群归类为静态的。其基本思想是，具有高残差的集群是其相对于相机的相对运动与相机运动本身不一致的集群。为了贯彻这一概念，我们必须量化什么是“高残差”。

我们的假设是，大的残差对应于显著高于参数c的残差，即位于函数F®的平坦一侧的残差(见图2)。以下术语在总体最小化问题中设置此阈值：

在这里插入图片描述

每个簇i中的总像素数由ki表示，并且ˆc>c是启发式选择的阈值，其定义低残差和高残差之间的边界。当簇i的平均残差高于ˆc时，该项与(5)的组合基本上鼓励bi尽可能低(到最小0)；否则它支持较高的bi的值(到最大值1)。

在这里插入图片描述

在(10)中，Gij是连通性图：当簇i和j在空间中相邻时等于1，否则等于0。参数λR相对于其他项加权SR(B)。

最后，我们添加了一个几何约束，它利用了这样一个事实，即移动的对象不会出现在我们的地图中，因此ZD和ZM之间的深度差异对于移动的集群来说将非常高。此约束表示为分段先验：

在这里插入图片描述

其中，Kp控制实施动态评分的深度差应该有多高，而λP是在整体优化中对此约束进行加权的参数。诚然，(11)与(5)有一定程度的冗余，然而，(12)不像(7)和(8)那样在没有任何预加权的情况下直接计算深度差。这为移动物体的存在提供了额外的证据。上述三个术语仅依赖于b。为清楚起见，我们将它们归类为在(1)中使用的组合术语S(B)：

在这里插入图片描述

C.求解

由于(1)涉及直接的图像对齐，整个最小化问题必须在一个从粗到精的方案内解决。这意味着构建一个图像金字塔，并将它们从最粗到最细对齐。在金字塔的中间层获得的分割被存储并用于在下一层初始化求解器，从而允许算法收敛到在金字塔的不同层的正确分割。

在每个水平上，项D(ξ，b)是关于ξ的非线性和非凸项。然而，组合优化问题是凸的，并且可以关于b解析地求解。因此，我们使用迭代重新加权最小二乘(IRLS)来最小化(1)相对于摄像机运动ξ，并且在每次迭代IRLS算法之后得到b的闭合解。在求解器中将ξ与b解耦使我们能够有效地计算每个步骤的解，而这两个步骤的紧密交替导致良好的收敛速度