论文笔记：6-DoF Object Pose from Semantic Keypoints

最新推荐文章于 2023-11-16 22:12:28 发布

WillerW

最新推荐文章于 2023-11-16 22:12:28 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：论文笔记

本文链接：https://blog.youkuaiyun.com/wumo1556/article/details/85411036

论文笔记专栏收录该内容

9 篇文章

订阅专栏

本文介绍了一种在ICRA上发表的方法，用于三维物体的关键点检测及6DoF位姿估计，特别适用于instance-and-category-based场景。通过Faster R-CNN检测2D边界框，结合stacking hourglass网络结构，输出一组关键点热力图，解决了遮挡和3D模型获取难题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ICRA上的一篇文章，提出了一种检测三维物体关键点检测以及6 DoF位姿估计的方法，可以用于instance- and category-based 的场景。

代码：https://github.com/geopavlakos/object3d/
项目：https://www.seas.upenn.edu/~pavlakos/projects/object3d/
论文：https://arxiv.org/abs/1703.04670

首先采用Faster R-CNN检测得到目标的2D bb，然后在执行所提出的方法。所使用的网络结构是stacking hourglass，来源于human pose estimation，与cornetNet中的backbone有些类似。网络的输入是RGB图像，输出是一组heatmaps，每个关键点对应一个heatmap。每个heatmap的真值是一个以关键点真值为中心，方差为1的高斯仿真得到标签图像，目标函数是 $L_2$ 损失。
网络结构

使用stacking hourglass有三个优点：

可以整合局部和全局信息
stacking提供了一种迭代有效的过程，且对估计值可以求精；
中间监督可以用作有效的训练策略，尤其是在梯度消失的情况

文章中提到了在检测得到关键点后，直接使用PnP方法的两个问题：

由于遮挡或背景中的false detection，由网络预测得到的关键点可能被不精确的渲染；
目标精确的3D模型通常难以获得

文章中提出了一种deformable shape models方法解决这种问题。针对每一类物体，使用对应的3D CAD模型以及标注的关键点，构建可变形模型 $\boldsymbol{S}\in \mathbb{R}^{3\times p}$ :

$\boldsymbol{S} = \boldsymbol{B}_0 + \sum_{i=1}^kc_i\boldsymbol{B}_i$

其中 $\boldsymbol{B}_0$ 是一给定3D模型的平均形状， $\boldsymbol{B}_1, \dots , \mathbf{B}_k$ 是由PCA计算得到形状分量。给定图像中检测的关键点，记为 $\boldsymbol{W}\in \mathbb{R}^{2\times p}$ ，优化问题为：
$\min_{\theta}\frac{1}{2}\left \| \xi(\theta)\boldsymbol{D}^\frac{1}{2} \right \|^2_F + \frac{\lambda}{2}\left\| \boldsymbol{c} \right\|_2^2$