
6D位姿估计
文章平均质量分 87
对6D位姿估计领域的部分顶会方法进行精读。
ZYLer_
这个作者很懒,什么都没留下…
展开
-
论文解读《Gen6D: Generalizable Model-Free 6-DoF Object Pose Estimation from RGB Images》 小样本6D位姿估计
相比之下,以前的姿态细化器[29,74]仅依赖于2D图像特征来回归3D相对姿态,这不太准确,尤其是对于看不见的物体。然后,视点选择器将查询图像与参考图像相匹配,选择最相似的参考图像并估计平面内旋转来找到初始旋转,以产生粗略的初始姿态;姿态细化器的主要挑战是对象模型的不可用性。现有的姿态细化器[29,74]基于渲染和比较,在输入姿态上渲染图像,然后用查询图像匹配渲染的图像以细化输入姿势。在这种情况下,将有多个看似合理的参考图像,选择器必须选择视点最近的一个作为查询图像,这通常非常模糊,如下图所示。原创 2023-12-25 14:05:18 · 2611 阅读 · 0 评论 -
论文解读《Zero-Shot Category-Level Object Pose Estimation》类别级6D位姿估计
在这个过程之后,可以使用基本的几何图元来理解对象之间的空间关系。=> **零样本(也就是预测未见过的物体(没有该实例的数据标记和CAD模型),类别级)**预测来自对象类别的两个实例之间的姿势偏移,而不需要任何姿势注释。现有的类别级方法通过训练每个类别的单独模型,或通过为每个类别使用不同的模板(例如CAD模型),来预测图像中对象相对于所提供的CAD模型的类别和姿势。效果:在设计的CO3D基准(更加现实)上进行严格的实验,证明了当前的一些基准方法经常完全失效时,而本文的方法有助于零样本姿势对齐。原创 2023-12-24 14:52:07 · 1422 阅读 · 0 评论 -
论文解读《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose 》
以前的解决方法:lmmplicit differentiation(隐式微分),但是有一个问题argmin函数并不是真正完全可导的,在某些点是不连续的,所以会导致反向传播不稳定,就必须要依赖整个代理损失来做一个正则化,来保证整个PnP它优化的目标函数如果它是一个凸优化问题的话,然后用隐式微分就可以解决,但是如果没有前面这些东西,光靠端到端的一个损失函数,没有办法稳定的通过反向传播来学习所有的这些2D、3D点。输入Correspondence X是一个可导的东西,通过经典的贝叶斯公式推导得到一个概率密度。原创 2023-12-24 14:51:11 · 1626 阅读 · 0 评论 -
论文解读《Deep Hough Voting for 3D Object Detection in Point Clouds》
2NH个通道分别输出的是该物体的朝向是预置的 2NH 个朝向的概率值(即预置了 NH 条直线,每条直线又有 2 个朝向,该物体的朝向为这 2NH 个朝向中每一个的概率值);同 2NH 一样,4NS个通道分别输出的是该物体的尺度是预置的 4NS 个尺度的概率值(其中乘以 4 是因为NS个尺度中的每一个尺度都预置了 3种长宽高缩放比率+原尺度),NC个通道输出的是该局部区域是 NC 个类别的概率。同时在这一层,为了使得移动之后的点更接近物体的质心,采用了L1 loss去监督移动后的点和质心之间的距离。原创 2023-12-24 14:47:06 · 900 阅读 · 0 评论 -
论文解读《PCRNet: Point Cloud Registration Network using PointNet Encoding》
第一部分基本等同于PointNet全局特征提取结构,分别由几个MLP组成,数据维度分别变换为(64,64,64,128,1024),之后做最大池化,每一维取最大值,那么就从一个n×3的点云变成1×1024的特征向量。基于一个大的样本库,并且包含各种各样的姿态,利用深度学习获得一个全局最优的结果,听上去是一个可行的方案。之前的工作还是使用传统的优化方法,如牛顿法,ICP,梯度下降,LK算法等,针对编码后的特征向量实现姿态对齐。,有效的学习了大规模样本的配准规律,且对噪声的鲁棒性具备一定优势。原创 2023-12-24 14:45:26 · 956 阅读 · 0 评论 -
论文解读《Pix2Pose: Pixel-Wise Coordinate Regression of Objects for 6D Pose Estimation》
最近,使用生成对抗性网络(GAN)[5]提高了生成的图像的质量,这些图像不那么模糊,更逼真,用于图像到图像的翻译[13]、画中画和去噪[11,23]任务。式中,n 是像素个数,M 表示图像中物体对应的Mask,注意,这里的mask包含了物体被遮挡部分,这样就使得训练出来的网络对遮挡有一定的鲁棒性;式中,R_p是一个3 × 3 的旋转向量,它取自于集合sym中,该集合包含了若干个旋转向量,每一个旋转向量的旋转轴为物体对称轴、旋转角度为物体对称角度或其整数倍,当然该集合中还包括了单位向量,表示物体不旋转。原创 2023-12-24 14:43:51 · 1105 阅读 · 0 评论 -
论文解读《Learning Deep Network for Detecting 3D Object Keypoints and 6D Poses》 无需位姿标注的model-free 6D位姿估计
在推理阶段,我们的网络将RGB图像作为输入,并检测输入图像中目标对象的类别、2D位置和3D关键点,通过该图像,可以从每个不同对象的参考图像中的相应关键点几何推断6D对象姿态。与以前的6D姿态检测方法不同,我们的方法从图像对之间的相对变换中学习3D关键点,而不是从明确的3D标记信息或3D CAD模型中学习。给出了一个物体的图像对(I,I′),其视点之间具有已知的相对变换矩阵T。在这种损失函数和具有广泛变换的训练对的帮助下,学习到的3D关键点将稳定地落在对象的一致位置上,即使该位置在图像中是不可见的。原创 2023-12-24 14:15:56 · 1208 阅读 · 0 评论 -
论文解读《DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency》 自监督6D位姿估计
在对合成数据初始化网络或对伪标记的真实数据进行微调后,为所有真实图像生成(或更新)伪分割标签,并附加增强,即多尺度输入和左右翻转。但是这里有个问题,就是预测的分割结果是只有可见部分的,而渲染的物体掩膜是整个物体的轮廓,所以不能直接对齐。设计了一种新的自监督双尺度一致性姿态估计网络(DSC PoseNet)来预测关键点的位置,然后使用估计的关键点来预测真实图像中的物体姿态。目标是从真实图像的粗略2D BBox注释中获得像素级的对象分割结果(分割可以提供详细的对象轮廓,从中可以粗略地确定对象姿态)。原创 2023-11-01 15:04:24 · 426 阅读 · 1 评论 -
论文解读《FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation》
然后将提取的逐点特征馈送到实例语义分割和3D关键点投票检测模块中,以获得场景中的每个对象的3D关键点。具体而言:通过添加实例语义分割模块来区分不同的对象实例,并添加关键点投票模块来恢复三维关键点,从而获得每个对象的三维关键点。实例语义分割模块由语义分割模块和中心点投票模块组成,前者预测每点语义标签,后者学习每点到对象中心的偏移量,以区分不同的实例。这些点很难检测,估计姿态的精度降低。基于PVN3D的逐对象3D关键点检测,首先在场景中检测每个对象选择的3D关键点,然后利用最小二乘拟合算法恢复姿势参数。原创 2023-10-30 10:50:46 · 1000 阅读 · 0 评论 -
论文解读《ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression Framework》
最后,对不同的模态特征进行聚合。对于RGB和点云特征融合来说,论文《Pointvoxel cnn for efficient 3d deep learning》证明,一个有效的网络应该避免随机存储器访问(索引操作是低效的),这是PVN3D和DenseFusion中密集融合网络的计算瓶颈。然后,我们将对称对象分为五类,并给出相应的距离度量,称为平均(最大)分组基元距离 A(M)GPD。当使用L1损失来训练对称物体时(该物体有多个真实姿态),它会收敛到预测这多个姿态的平均值状态,而这个状态时没有任何意义的。原创 2023-10-30 10:49:49 · 234 阅读 · 0 评论 -
论文解读《DenseFusion:6D Object Pose Estimation by Iterative Dense Fusion》
DenseFusion 的特征提取网络是一种并行异构的架构,其使用一个 CNN 网络从 RGB 图像中提取颜色相关的特征,使用一个 PointNet 从点云中提取形状几何相关的特征。值得注意的是,这里 CNN 卷积输出的特征图是与原图宽高一致的,PointNet 输出的特征也是逐点特征(point-wise feature),即每个点都有相对应的特征。这样就可以根据每个点的索引,在 CNN 输出的特征图上找到唯一的对应,从而将来自点云的几何特征与来及图像的颜色特征进行串联,获得逐点的多模态特征向量。原创 2023-10-30 10:44:03 · 1416 阅读 · 0 评论