CVPR2024满分文章,英伟达团队工作。
文章地址:https://arxiv.org/pdf/2312.08344.pdf
代码地址:https://github.com/NVlabs/FoundationPose
文章目录
摘要
提出FoundationPose,能用于6D位姿估计与跟踪,无论模型是否可用都支持。只需要CAD模型或少量参考图像就能进行zero-shot测试,泛化能力依靠大规模训练,LLM和对比学习,达到实例级效果。

(通过这张对比图,能简单看出本方法爆杀之前的各种方法,且能执行多种任务,不难看出大模型让各领域都趋向于多任务统一化。)
一、介绍
将实例级位姿估计归类为传统方法:需要依靠CAD模型生成训练数据,且无法应用到新物体(unseen novel object)。类别级位姿估计不需要CAD模型,但仅限于训练过的预定义类内对象,且类别级位姿估计训练数据制备较难。
为了应对以上问题,最近的解决方案大致分为两类:model-based:依赖3D CAD模型;model-free:用一些参考图像,而不需要模型。本文统一这两种方法。
之后介绍了与位姿估计不同的任务:姿态跟踪,利用时间线索,对视频进行位姿估计。也存在对物体知识假设的依赖。
本方法输入为RGBD,通过神经隐式表示来减少基于模型以及无模型设定的差距。同时使用一种比渲染与比较更快的新视图合成方法,一个LLM辅助合成数据生成的方法。在仅基于合成方法进行训练时实现强大泛化能力。
二、相关工作
基于CAD模型的物体位姿估计
假设为对象给出了纹理CAD模型,训练和测试在完全相同的实例上执行。物体姿态通常通过直接回归,或构建2D-3D对应关系,然后进行PnP求解,或3D-3D之后最小二乘。类别级位姿估计不需要模型,但只能用于同一类别的新对象。目前的研究方向在进行实时估计,且只在推理时提供CAD模

FoundationPose是一种强大的6D位姿估计与跟踪方法,无需依赖CAD模型,仅需少量数据或CAD模型即可进行零样本测试。通过大规模训练和LLM/对比学习,它在实例级别表现出色,且能适应多种任务,展示了大模型在多任务统一化中的潜力。
最低0.47元/天 解锁文章
1763

被折叠的 条评论
为什么被折叠?



