【6D Pose/论文阅读】EfficientPose

这篇博客介绍了EfficientPose,一种在RGB图像中实现高精度(97.5% LINEMOD)的端到端6D物体姿态估计方法。它结合了EfficienDet的2D检测与角轴旋转表示,创新地采用真实数据增强和扩展了EfficienDet。文章着重讨论了旋转估计网络、数据增强策略和ADD损失调整,展示了出色的性能和易用性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

EfficientPose: An efficient, accurate and scalable end-to-end 6D multi object pose estimation approach

这篇文章的工作是近年来RGB姿态估计效果最好的,LINEMOD中精度可达97.5,最近阅读了论文并跑了代码。

首先它讲2DBBOX的识别也放进了整个网络里面,然后有四个要学习的东西,包括物体的类别,BBOX,R以及t,这里面主要是用来EfficienDet,然后旋转使用了角轴的表示方法,这一点和GDRnet使用6个参数表示R矩阵不同,后续探究旋转的不同表示应该是一个比较重要的事情。

文章有两个创新点:
1.6D位姿数据增强的方法,使用真实数据进行数据增强,感觉比使用合成数据跟个容易学习到
2.扩展了最先进的二维物体检测EfficienDet,具有额外的6D物体姿态估计能力,同时保持其固有的单镜头多目标的优势和实例检测、高精度、可伸缩性、效率和易用性。

旋转估计网络
旋转网络
这个旋转估计网络的一个优点是估计出一个旋转之后,会加入一个细化网络,这样可以使得网络效果更好。

然后还做了一些网络上的改进,这点没看太明白

平移估计网络

t方面的估计使用了跟PoseCNN一样的表示方法,先估计深度tz,然后估计出tx和ty,如下图,原理就是下面的投影模型针孔相机的示意图,说明了一个物体的三维中心点到二维图像平面上的投影
在这里插入图片描述

LOSS设计方面
这个直接用ADD的方法去做的,然后针对对称物体做了一些改进在这里插入图片描述

设计

数据增强

对于数据增强的手段也是比较简单的,主要是对图像进行Z轴方向的旋转,这个旋转的角度可以得到旋转矩阵,原R左乘这个旋转矩阵就可以得到增强数据,平移矩阵也一样,对于缩放,也是z轴方向的

备注:该网络效果还是不错的,我只使用了渲染数据训练,3000张数据,然后测试效果不错,网络的的重点在于如何送入合适的数据集

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值