[CVPR 2019]类别级物体6自由度位姿估计

最新推荐文章于 2024-05-06 22:11:12 发布

置顶

耗子梦见猫

最新推荐文章于 2024-05-06 22:11:12 发布

阅读量3.2k

点赞数 2

分类专栏：位姿估计 CVPR2019 文章标签：位姿估计 CVPR 物体位姿估计

本文链接：https://blog.youkuaiyun.com/lh641446825/article/details/100191017

版权

本文介绍了CVPR 2019年的一篇论文，提出了标准化物体坐标空间（NOCS）来解决类别级6D物体位姿和尺寸估计问题。在没有CAD模型的情况下，通过训练神经网络预测像素与共享标准模型的关系，结合深度图估计物体位姿和尺寸。文章详细阐述了创新点、核心思想、数据集生成、模型结构以及实验结果，展示了在真实场景中对未见过物体的位姿和大小进行准确估计的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation

论文地址：https://arxiv.org/abs/1901.02970
github链接：https://github.com/hughw19/NOCS_CVPR2019

简介

本文的目标是估计RGB-D图像中从未见过的物体实例的6D位姿和尺寸。与“实例级”6D位姿估计任务相反，作者假设在训练或测试期间没有精确的CAD模型可用。为了处理给定类别中不同的和从未见过的物体实例，作者引入了标准化物体坐标空间（简称NOCS），即同一个类别中的所有物体实例使用一个共享的标准模型来表示。然后，通过训练神经网络来推断观察到的像素与共享标准模型的对应关系以及其他信息，例如类别标签和mask。通过将预测图像与深度图相结合，共同估计杂乱场景中多个物体的6D位姿和尺寸。为了训练网络，作者提出了一种新的上下文感知技术来生成大量带注释的混合现实数据。为了进一步改进模型并评估它在真实数据上的性能，作者还提供了一个完全注释的真实场景下的数据集。大量实验表明，该方法能够鲁棒地估计真实场景中从未见过物体的位姿和大小。

问题的提出

位姿估计的现有方法中SSD-6D、latent霍夫投票、BB8、YOLO-6D和poseCNN都预先提供了物体精确的CAD模型及大小，然而从未见过的物体是没有CAD模型的。在三维目标检测的论文中不需要物体的CAD模型就可以估计类别标签和边界框。但是三维目标检测是根据视点估计的，没有编码物体的精确方向。这两种方法都不能对从未见过的物体进行位姿估计。

1. 第一个挑战：找到特定类别物体位姿和尺寸的表示方法。
2. 第二个挑战：缺少训练和测试数据集。（现有三维目标检测数据集缺注释，或者不包含桌面级物体类别）