《RelPose++: Recovering 6D Poses from Sparse-view Observations》阅读笔记

论文地址:https://arxiv.org/abs/2305.04926

项目地址:https://github.com/amyxlase/relpose-plus-plus

---------------------------------------------------------------------------------------------------------------------------------

任务:

        从稀疏视图图像集(2-8张图像)估计6D相机姿势的任务

挑战:

        这项任务是几乎所有当代(神经)重建算法的重要预处理阶段,但在稀疏视图的情况下仍然具有挑战性,特别是对于具有视觉对称性无纹理表面的对象。

动机:

        虽然几种稀疏视图重建方法已经显示出有希望的结果,但它们严重依赖于已知的(精确或近似)6D相机姿势来进行这种3D推理,并回避了如何首先获得这些6D姿势的问题。

提出:

        开发了一个系统,可以帮助弥合这一差距,并在给定通用对象(例如 Fetch 机器人)的稀疏图像集的情况下稳健地推断(粗略)6D 姿势,即RelPose++,该方法建立在RelPose基础之上。

大致过程:

        首先使用ResNet 50提取全局图像特征。作者对图像索引进行位置编码,并将边界框参数连接为Transformer的输入。

        在对所有图像特征进行联合处理后,分别对旋转和平移进行估计。

        为了处理姿态的模糊性,作者使用基于能量的公式(RelPose)对旋转分布进行建模。因为在最接近所有光轴的唯一世界坐标上预测原点,所以可以直接从学习到的特征中回归相机平移。

贡献:

        本文基于RelPose框架改造,在此基础上添加了两个关键扩展:

                首先,使用注意力transformer层来联合处理多个图像,因为对象的额外视图可能会解决任何给定图像对中的对称性歧义(例如,一个杯子的把手在第三个视图中变得可见)。

                其次,通过定义一个适当的坐标系统来扩展这个网络,以报告相机的平移,从而解耦旋转估计中的歧义与平移预测。

结果:

        1. 在CO3D 数据集的 41 个类别进行训练,并且能够仅从几张图像中恢复对象的 6D 相机姿势

        2. 评估了可见类别、不可见类别甚至新数据集(以零样本方式),将旋转预测提高了 10% 以上现有技术。

        3. 通过测量预测相机中心的准确性来评估完整的6D相机姿势(同时考虑相似性变换模糊性),并展示了我们提出的坐标系的好处。

        4. 制定了一个度量,将预测的相机平移和预测旋转的准确性解耦,这对于未来的基准测试通常很有用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值