【6D Pose/论文阅读】EfficientPose

最新推荐文章于 2025-07-10 21:45:21 发布

原创最新推荐文章于 2025-07-10 21:45:21 发布 · 2.5k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

这篇博客介绍了EfficientPose，一种在RGB图像中实现高精度（97.5% LINEMOD）的端到端6D物体姿态估计方法。它结合了EfficienDet的2D检测与角轴旋转表示，创新地采用真实数据增强和扩展了EfficienDet。文章着重讨论了旋转估计网络、数据增强策略和ADD损失调整，展示了出色的性能和易用性。

EfficientPose: An efficient, accurate and scalable end-to-end 6D multi object pose estimation approach

这篇文章的工作是近年来RGB姿态估计效果最好的，LINEMOD中精度可达97.5，最近阅读了论文并跑了代码。

首先它讲2DBBOX的识别也放进了整个网络里面，然后有四个要学习的东西，包括物体的类别，BBOX，R以及t，这里面主要是用来EfficienDet，然后旋转使用了角轴的表示方法，这一点和GDRnet使用6个参数表示R矩阵不同，后续探究旋转的不同表示应该是一个比较重要的事情。

文章有两个创新点：
1.6D位姿数据增强的方法，使用真实数据进行数据增强，感觉比使用合成数据跟个容易学习到
2.扩展了最先进的二维物体检测EfficienDet，具有额外的6D物体姿态估计能力，同时保持其固有的单镜头多目标的优势和实例检测、高精度、可伸缩性、效率和易用性。

旋转估计网络
旋转网络
这个旋转估计网络的一个优点是估计出一个旋转之后，会加入一个细化网络，这样可以使得网络效果更好。

然后还做了一些网络上的改进，这点没看太明白

平移估计网络

t方面的估计使用了跟PoseCNN一样的表示方法，先估计深度tz，然后估计出tx和ty，如下图，原理就是下面的投影模型针孔相机的示意图，说明了一个物体的三维中心点到二维图像平面上的投影
在这里插入图片描述

LOSS设计方面
这个直接用ADD的方法去做的，然后针对对称物体做了一些改进在这里插入图片描述

数据增强

对于数据增强的手段也是比较简单的，主要是对图像进行Z轴方向的旋转，这个旋转的角度可以得到旋转矩阵，原R左乘这个旋转矩阵就可以得到增强数据，平移矩阵也一样，对于缩放，也是z轴方向的

备注：该网络效果还是不错的，我只使用了渲染数据训练，3000张数据，然后测试效果不错，网络的的重点在于如何送入合适的数据集

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。