论文阅读：FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects-6DoF位姿估计

最新推荐文章于 2025-11-16 21:14:22 发布

原创

最新推荐文章于 2025-11-16 21:14:22 发布 · 3k 阅读

CC 4.0 BY-SA版权

文章标签：

FoundationPose是一种强大的6D位姿估计与跟踪方法，无需依赖CAD模型，仅需少量数据或CAD模型即可进行零样本测试。通过大规模训练和LLM/对比学习，它在实例级别表现出色，且能适应多种任务，展示了大模型在多任务统一化中的潜力。

CVPR2024满分文章，英伟达团队工作。
文章地址：https://arxiv.org/pdf/2312.08344.pdf
代码地址：https://github.com/NVlabs/FoundationPose

摘要

提出FoundationPose，能用于6D位姿估计与跟踪，无论模型是否可用都支持。只需要CAD模型或少量参考图像就能进行zero-shot测试，泛化能力依靠大规模训练，LLM和对比学习，达到实例级效果。

在这里插入图片描述
（通过这张对比图，能简单看出本方法爆杀之前的各种方法，且能执行多种任务，不难看出大模型让各领域都趋向于多任务统一化。）

将实例级位姿估计归类为传统方法：需要依靠CAD模型生成训练数据，且无法应用到新物体（unseen novel object）。类别级位姿估计不需要CAD模型，但仅限于训练过的预定义类内对象，且类别级位姿估计训练数据制备较难。

为了应对以上问题，最近的解决方案大致分为两类：model-based：依赖3D CAD模型；model-free：用一些参考图像，而不需要模型。本文统一这两种方法。

之后介绍了与位姿估计不同的任务：姿态跟踪，利用时间线索，对视频进行位姿估计。也存在对物体知识假设的依赖。

本方法输入为RGBD，通过神经隐式表示来减少基于模型以及无模型设定的差距。同时使用一种比渲染与比较更快的新视图合成方法，一个LLM辅助合成数据生成的方法。在仅基于合成方法进行训练时实现强大泛化能力。

假设为对象给出了纹理CAD模型，训练和测试在完全相同的实例上执行。物体姿态通常通过直接回归，或构建2D-3D对应关系，然后进行PnP求解，或3D-3D之后最小二乘。类别级位姿估计不需要模型，但只能用于同一类别的新对象。目前的研究方向在进行实时估计，且只在推理时提供CAD模