Constructing Category-Specific Models for Monocular Object-SLAM（阅读笔记)

最新推荐文章于 2023-08-06 22:30:40 发布

qq_21696337

最新推荐文章于 2023-08-06 22:30:40 发布

阅读量546

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/qq_21696337/article/details/82925974

本文提出一种新的单目对象SLAM方法，构建类别级别的模型以解决实例独立的单眼对象SLAM问题。通过使用有限的手动标记数据合成大规模数据集，学习3D对象变形的类别模型和2D对象特征。这种方法不仅能够估计物体和相机的姿势，还能实时估计物体形状，适用于包含多种物体的场景。提出的2D对象特征学习方法提高了系统在稀疏特征失败情况下的鲁棒性，并且有助于对象实例检索，适用于增强现实应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Constructing Category-Specific Models for Monocular Object-SLAM
1 摘要
摘要 - 我们提出了一种用单目相机进行实时面向对象SLAM的新范例。与先前依赖于对象级模型的方法相反，我们从CAD集合构建类别级模型，这些模型现在可广泛使用。为了减少对大量标记数据的需求，我们开发了一种渲染途径，可以从有限数量的手动标记数据中合成大型数据集。使用这样合成的数据，我们学习3D中对象变形的类别级模型，以及2D中的判别对象特征。这些类别模型与实例无关，有助于设计对象标志，可以纳入通用单眼SLAM框架的观察结果。在典型的物体-SLAM方法通常仅解决物体和相机姿势的情况下，我们还可以即时估计物体形状，允许来自该类别的各种物体存在于场景中。此外，由于我们的2D对象特征是有区别地学习的，因此所提出的对象-SLAM系统在几种情况下成功
由于功能或视差不足导致基于稀疏特征的单眼SLAM失败。此外，建议的类别模型有助于对象实例检索，对增强现实（AR）应用程序很有用。我们在多个具有挑战性的真实场景中评估所提出的框架，并且据我们所知，展示独立于实例的单眼对象-SLAM系统的第一个结果以及它对基于特征的SLAM方法的好处
2 引言
同时进行定位和地图构建（SLAM）已经被发现各种实际应用，如自主导航，视觉检测，测绘和监视。单目相机已经发展成为SLAM的流行选择，特别是在手持设备和微型飞行器（MAV）等平台上。大多数最先进的单眼SLAM系统[1]对几何图元（如点，线和平面贴片）进行操作。其他则直接在图像上操作，而不需要昂贵的特征提取步骤[2]。然而，这两组方法都缺乏提供场景的丰富语义描述的能力。
识别并跟踪场景中的对象将使机器人能够构建有意义的地图和场景说明。 Object-SLAM是一个相对较新的范例实现这一目标，[3]-[5]。总而言之，对象-SLAM试图用扩充SLAM对象信息使机器人定位，对象定位估计（在某些情况下，也是对象姿态估计），和映射是在统一的框架中实现的。
在对象SLAM研究中有两种主要范例，取决于SLAM框架中对象的表征方式。在第一个范例[4]，[6]中，假设对象级别（特定于实例）的模型可以预先获得。然而，具有尺度模糊性的单眼SLAM的性质以及由于投影到图像平面上而导致的信息损失使得这种范例对于单眼物体-SLAM系统是不可行的。第二种范式[7]，[8]假设一个通用模型，无论对象类别如何。例如，[8]将所有对象建模为椭球，[5]，[9]将所有对象建模为长方体。这两种方法都有一些缺点。依赖对象级模型将导致需要精确对象类别的所有实例的对象模型。另一方面，通用模型不会提供有关对象类别标签之外的对象的大量信息。例如，例如操纵的应用程序，知道对象姿势是有利的。
在本文中，我们提出了一种新的单眼对象SLAM模式，它结合了两个世界中最好的世界。为了享受特定于实例的模型的表达能力，同时保留通用模型的简单性，我们构建了特定于类别的模型，即，对象类别被建模为整体。我们使用广泛使用的线性子空间模型来表征一个对象类别，并将对象观察定义为SLAM因子图中的因子[13]，[14]。在我们的object-SLAM公式中，我们不假设任何关于对象的实例（可互换地称为形状）的知识。相反，我们明确地在联合公式中求解对象形状。 object-SLAM后端估计机器人轨迹和地图，以及场景中所有对象的姿势和形状。
当然，人们会期望需要大量数据来学习特定于类别的模型，这些模型可以很好地概括对象实例，这是正确的。 ShapeNet，SceneNet，ObjectNet等数据集已经提供了各种对象类别的CAD集合。我们利用此类CAD集合的现成可用性来构建我们的类别模型。这些类别模型捕获3D中对象的变形模式。相应地，我们利用最近成功的卷积神经网络（CNN）进行关键点定位[10]，[15] - [17]来训练2D对象特征提取器。为了减少对大量手动注释的训练数据的需求，我们设计了一个渲染管道，沿着RenderForCNN [18]的路线，为类别模型学习合成了大量的训练数据。所呈现的渲染管线接收少量的手动注释数据，并合成可用于有效训练2D对象特征提取网络的大数据集。我们表明，与仅通过真实数据学习的特征检测器相比，从渲染管道中学习的特征检测器更精确，这证实了[18]中的主张。
我们在多个具有挑战性的真实世界序列上评估我们的对象-SLAM系统，并在我们所知的情况下呈现实例独立的第一步在单眼对象-SLAM中。由于我们在物体上使用有区别的2D特征，因此我们的系统对于诸如强旋转的条件是稳健的，在这方面单眼SLAM方法通常面临灾难性故障。我们提供了对象SLAM管道的增量版本和批量版本，并在基于特征的可视SLAM方法上定性和定量地展示了它的优势[1]。最后，我们展示了使用我们的类别级模型，可以执行对象实例检索，这可以在许多增强现实（AR）应用程序中用于覆盖场景中的对象模型。图1说明了我们管道的输出。物体始终嵌入到机器人的轨迹中，并渲染其3D模型。
3 相关工作
几乎所有最先进的SLAM系统[1]，[2]，[19]都依赖于姿势图（或其他因子图）优化[20]，[21]。在本节中，我们将回顾有关对象SLAM的相关工作，并概述其中的某些限制，这些限制构成了所提议方法的激励因素。

A object-SLAM
随着SLAM系统的最新进展和随后的稳定，社区一直致力于将对象纳入SLAM框架。对此，已经提出了面向对象SLAM的一些最新方法[3] - [5]，[7] - [9]。
这些成果大多依赖于RGBD或立体声传感器的深度信息[4] - [7]。在[4]，[6]中，假设对象的实例级模型是先验已知的。在[4]中，将实时3D对象检测算法应用于RGB-D图像流，并且这些对象与姿