论文笔记--Cross View Fusion for 3D Human Pose Estimation(用于三维人类姿势估计的跨视图融合)

本文提出一种结合跨视图几何先验的3D姿态估计算法,通过CNN融合多视角二维姿态并应用递归图像结构模型(RPSM)细化三维估计,显著改善了H36M和TotalCapture数据集的性能,优于现有技术。

Cross View Fusion for 3D Human Pose Estimation(用于三维人类姿势估计的跨视图融合

摘要

  我们提出了一种方法,通过在我们的模型中加入多视角的几何先验,从多视角图像中恢复绝对的三维人体姿势。它由两个独立的步骤组成。(1)估计多视角图像中的二维姿势;2)从多视角二维姿势中恢复三维姿势。首先,我们在CNN中引入了一个跨视图融合方案来联合估计多视图的二维姿势。因此,每个视图的二维姿态估计已经从其他视图中受益。其次,我们提出了一个递归的图像结构模型,从多视图的二维姿势中恢复三维姿势。它以可承受的计算成本逐步提高了三维姿态的准确性。我们在两个公共数据集H36M和Total Capture上测试了我们的方法。这两个数据集的平均每关节位置误差为26毫米和29毫米,明显优于先进的技术(26毫米对52毫米,29毫米对35毫米)。

1、简介

  由于深度神经网络的引入,三维姿态估计的任务已经取得了重大进展。大多数努力[16, 13, 33, 17, 23, 19, 29, 28, 6]都致力于从单眼图像中估计相对三维姿势。估计的姿势是以骨盆关节为中心的,因此不知道它们在环境中的绝对位置(世界坐标系)。
  在本文中,我们解决了从多个相机中估计世界坐标系中的绝对三维姿势的问题[1, 15, 4, 18, 3, 20]。大多数工作都遵循先估计二维姿态,然后从中恢复三维姿态的管道。然而,后一步通常取决于第一步的性能,不幸的是,在实践中,特别是当图像中出现遮挡或运动模糊时,第一步往往有很大的误差。这给最终的三维估计带来了巨大的挑战。
  另一方面,使用图像结构模型(PSM)[14, 18, 3]进行三维姿势估计,可以通过考虑其空间依赖性来减轻不准确的二维关节的影响。它通过一个N×N×N的网格对根关节周围的空间进行离散,并将每个关节分配到N3个仓(假设)中的一个。它共同最小化了估计的三维姿势和二维姿势之间的投影误差,以及关节的空间配置和其先验结构的差异。然而,空间离散化会造成很大的量化误差。例如,当人类周围的空间大小为2000mm,N为32时,量化误差高达30mm。我们可以通过增加N来减少误差,但推理成本也增加到O(N6),这通常是难以解决的。
在这里插入图片描述

图1. 用于二维姿态估计的跨视角融合。图像首先被送入一个CNN以获得初始热图。然后,每个视图的热图通过融合层与其他视图的热图进行融合。整个网络是端到端的学习。

  我们的工作旨在解决上述挑战。首先,我们通过使用基于CNN的方法从多个视图中联合估计获得更准确的2D姿势。它优雅地解决了为二维姿态热图融合寻找不同视图之间的对应位置的挑战。如图1所示,我们通过一个融合神经网络来实现这一想法。融合网络可以以端到端的方式与任何基于CNN的二维姿势估计器集成,而不需要中间的监督。
  其次,我们提出了递归图像结构模型(RPSM),以从估计的多视角二维姿势热图中恢复三维姿势。与PSM不同的是,RPSM直接将空间离散成大量的bin,以控制量化误差,RPSM使用少量的bin将每个关节位置周围的空间递归离散成更细的网格(在前一次迭代中估计)。因此,估计的三维姿态被一步步细化 逐步细化。由于每一步中的N通常都很小,所以推理速度在单次迭代中是非常快的。在我们的实验中,与PSM相比,RPSM至少减少了50%的误差,而推理时间几乎没有增加。
  对于H36M数据集[11]上的二维姿势估计,所有关节的平均检测率从89%提高到96%。对于最具挑战性的 "手腕 "关节来说,这种改进是非常明显的。对于三维姿势估计,将PSM改为RPSM后,平均误差从77毫米大幅降低到26毫米。即使与平均误差为52毫米的最先进的方法相比,我们的方法也将误差减半。我们在Total Capture数据集[27]上进一步评估我们的方法,以验证其泛化能力。它仍然优于最先进的方法[26]。

2、相关工作

  我们首先回顾了多视角三维姿态估计的相关工作,并讨论它们与我们的工作有什么不同。然后我们讨论了一些关于特征融合的技术。
  多视角三维姿态估计许多方法[15, 10, 4, 18, 3, 19, 20]被提出用于多视角姿态估计。他们首先定义一个以简单基元表示的身体模型,然后优化模型参数,使身体模型的投影与图像特征相一致。这些方法在使用的图像特征和优化算法方面有所不同。
  我们专注于象形结构模型(PSM),它被广泛用于物体检测[8, 9],为物体部分之间的空间依赖性建模。这种技术也被用于二维[32, 5, 1]和三维[4, 18]姿态估计,其中部件是身体关节或肢体。在[1]中,Amin等人首先用PSM估计了多视图设置中的二维姿势,然后通过直接三角测量获得三维姿势。后来Burenius等人[4]和Pavlakos等人[18]将PSM扩展到多视图的三维人体姿势估计。例如,在[18]中,他们首先为每个视图独立估计二维姿势,然后用PSM恢复三维姿势。我们的工作与[18]不同,我们将PSM扩展到一个递归版本,即RPSM,它可以有效地一步步完善3D姿势估计。此外,他们[18]没有像我们这样进行跨视角的特征融合。
在这里插入图片描述

图2. 外极几何:一个图像点YPu背投到由摄像机Cu和YPu定义的三维射线上。这条线在摄像机Cv中被成像为I。投射到YPu的三维点P必须位于这条射线上,因此P在摄像机Cv中的图像必须位于I上。

  多图像特征融合 融合不同来源的特征是计算机视觉文献中的一种常见做法。例如,在[34]中,Zhu等人提出根据光流将相邻帧(视频序列中)的特征扭曲到当前帧,以便稳健地检测物体。Ding等人[7]提出聚合多尺度特征,这对大物体和小物体都能达到更好的分割精度。Amin等人[1]提出通过探索多视角图像之间的几何关系来估计2D姿势。它与我们的工作不同的是,它没有融合其他视图的特征来获得更好的二维热图。相反,他们使用多视图的三维几何关系来从 "不完美 "的热图中选择联合位置。在[12]中,多视图的一致性被用作监督的来源来训练姿势估计网络。据我们所知,以前没有任何工作融合多视图特征以获得更好的二维姿势热图,因为在不同的视图中寻找相应的特征是一项具有挑战性的工作,这也是我们这项工作的主要贡献之一。

3、二维姿态估计的跨视图融合

  我们的二维姿态估计器将多视图图像作为输入,分别为每个视图生成初始姿态热图,然后融合不同视图的热图,使每个视图的热图从其他视图中获益。这个过程是在一个CNN中完成的,可以进行端到端的训练。图1显示了双视图融合的管道。将其扩展到多视图是微不足道的,每个视图的热图与所有其他视图的热图相融合。我们融合方法的核心是找到一对视图之间的对应特征。
  假设在三维空间中有一个点P。见图2。它在视图u和v中的投影分别是YPu ε ZuY_{P}^{u}\ \varepsilon \ Z^uYPu ε ZuYPv ε ZvY_{P}^{v}\ \varepsilon \ Z^vYPv ε Zv,其中ZuZ^uZuZvZ^vZv分别表示两个视图中的所有像素位置。视图u和v的热图是Fu = { x1u, ... , x∣Zu∣u}F^u\ =\ \left\{ x_{1}^{u},\ ...\ ,\ x_{|Z^u|}^{u} \right\}Fu = { x1u, ... , xZuu}Fv = { x1v, ... , x∣Zv∣v}F^v\ =\ \left\{ x_{1}^{v},\ ...\ ,\ x_{|Z^v|}^{v} \right\}Fv = { x1v, ... , xZvv}融合视图u中的特征,例如xiux_{i}^{u}x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值