Capturing Humans in Motion: Temporal-Attentive 3D Human Pose and Shape Estimation from Monocular Vid

abstract

摘要音频音标
Learning to capture human motion(运动) is essential(至关重要) to 3D human pose and shape estimation1 from monocular(单目) video.
学习捕捉人体运动对于从单目视频中估计3D人体姿态和形状至关重要。
However, the existing methods mainly rely on recurrent(循环) or convolutional(卷积) operation(操作)2 to model(建模) such temporal(时间) information, which limits the ability to capture non-local(非局部) context(上下文) relations(关系) of human motion.
然而,现有的方法主要依赖于循环或卷积操作来建模这种时间信息,这限制了捕捉人体运动的非局部上下文关系的能力。
To address this problem, we propose a motion pose and shape network (MPS-Net) to effectively(有效) capture humans in motion to estimate accurate(准确) and temporally coherent(时间连贯) 3D human pose and shape from a video.
为了解决这个问题,我们提出了一个运动姿态和形状网络(MPS-Net),可以有效地捕捉运动中的人体,从视频中估计准确和时间连贯的3D人体姿态和形状。
Specifically,(具体来说) we first propose a motion continuity(连续性) attention (MoCA) module(模块)3 that leverages(利用) visual(视觉) cues(线索) observed from human motion to adaptively(自适应地) recalibrate(重新校准) the range that needs attention in the sequence to better(更好地) capture the motion continuity dependencies(依赖性).
具体来说,我们首先提出了一个运动连续性注意力(MoCA)模块,利用从人体运动中观察到的视觉线索,自适应地重新校准序列中需要注意的范围,以更好地捕捉运动的连续依赖性。
Then, we develop a hierarchical(分层) attentive feature(特征) integration(集成) (HAFI) module4 to effectively(有效地) combine(结合) adjacent past and future feature representations to strengthen temporal correlation(相关性) and refine(精炼) the feature representation of the current frame(帧).
然后,我们开发了一个分层注意力特征集成(HAFI)模块,可以有效地结合相邻的过去和未来的特征表示,加强时间相关性并精炼当前帧的特征表示。
By coupling(耦合) the MoCA and HAFI modules5, the proposed MPS-Net excels(表现优异) in estimating 3D human pose and shape in the video.
通过耦合MoCA和HAFI模块,所提出的MPS-Net在视频中估计3D人体姿态和形状方面表现优异。
Though conceptually(概念) simple, our MPS-Net not only outperforms(优于) the state-of-the-art methods on the 3DPW, MPI-INF-3DHP, and Human3.6M benchmark(基准) datasets, but also uses fewer network parameters(参数).
虽然概念简单,但我们的MPS-Net不仅在3DPW、MPI-INF-3DHP和Human3.6M基准数据集上优于当前最先进的方法,而且使用的参数更少。
The video demos can be found at https://mps-net.github.io/MPS-Net/.
视频演示可以在https://mps-net.github.io/MPS-Net/中找到。


  1. 3D人体姿势和形状估计(3D human pose and shape estimation)是计算机视觉和计算机图形学中的一个重要研究问题。它的目标是从图像或视频中恢复出一个三维的人体模型,包括其姿势(pose)和形状(shape)信息。具体来说,这个任务包含以下要素:
    人体建模:使用参数化的人体模型来表示人体,比如SMPL模型。该模型包含体形参数和姿势参数,可以生成一个三维人体网格。
    姿势估计(Human Pose Estimation):估计三维骨骼的位置,表示人体的姿势。通常会预测关键点的三维坐标。如头、肩、肘、手、躯干、髋、膝等部位的空间位置。
    形状估计(Human Shape Estimation):估计人体的整体三维形状,如身高、体型等参数。
    参数回归:通过卷积神经网络从图像中回归出人体模型的参数,包括姿势、形状参数以及相机参数。
    3D重建:将估计的模型参数输入人体模型,生成三维人体网格,得到完整的人体三维重建结果。
    关键技术包括:1. 单图像3D人体恢复:使用CNN网络从单张RGB图像中直接回归出参数化的3D人体模型。2. 基于模型的优化方法:将图像特征匹配到模板人体模型上,进行模型参数优化以拟合图像观测。3. 序列模型:使用RNN、LSTM等结合时间信息进行多帧 estimatation。4. 无监督或弱监督方法:使用图像语义信息、视觉相似性等作为监督信号。5. 多视图结构:使用立体相机或多camera系统进行三维结构恢复。
    这项技术可以用于虚拟现实、增强现实、人机交互、动作分析、安全监控等领域,是计算机视觉的关键研究方向之一。随着深度学习的进展,3D人体姿态和形状估计的性能正在持续改善。 ↩︎

  2. 文章中提到现有的基于视频的3D人体姿势和形状估计方法主要依赖循环神经网络(recurrent neural network, RNN)或卷积神经网络(convolutional neural network, CNN)来建模时间信息。具体而言,主要使用了以下几种循环或卷积结构:
    LSTM: 长短期记忆网络(Long Short-Term Memory Network),是一种能够学习长程依赖的循环神经网络,通过特殊设计的门结构捕获时间序列的长程关联。GRU: 门控循环单元(Gated Recurrent Unit),是LSTM的简化版本,也常用于处理时间序列。Bidirectional RNN: 双向RNN,包含前向和后向RNN,可以捕获过去和未来的上下文信息。1D ConvNet: 一维卷积网络,可以对时间序列进行卷积操作,捕获局部特征。3D ConvNet: 三维卷积网络,可以同时对空间和时间维度进行卷积,学习时空特征。Temporal Convolution: Temporal Convolution层,在时间轴上进行一维卷积,以学习时间序列的表示。
    这些RNN和CNN结构都可以用来对视频序列建模,学习时序数据的表示,从而用于3D人体姿势和形状估计任务。但它们更擅长局部的上下文模型,难以学习长距离的依赖关系。 ↩︎

  3. MoCA(Motion Continuity Attention)是论文中提出的一个模块,用来学习视频序列中人体运动的连续性依赖关系。MoCA模块的主要思想有:
    使用自相似矩阵6捕获视频中人体视觉表示7的时间自相似性,反映运动的连续性。
    将自相似矩阵作为先验知识,引导自注意力机制学习关注运动上连贯的帧,避免关注不相关的帧。
    重新校准自注意力模块的注意力范围,使其聚焦在反映运动连续性的相关帧上。
    具体操作上,MoCA模块首先构建一个标准化的自相似矩阵作为先验知识,然后将其与非局部注意力模块生成的原始注意力图进行拼接,经过卷积网络进行重新校准,生成MoCA注意力图。这样MoCA注意力图既包含了自注意力模块学习的隐式依赖,也包含了自相似矩阵提供的显式运动连续性信息,可以更好地聚焦在与当前帧具有运动关联的帧上,从而捕获长程的运动依赖关系。
    相较于标准的自注意力模块,MoCA模块可以对不同视频内容和关系进行自适应,更好地建模人体运动的连续性,是该论文的一个创新点。 ↩︎

  4. HAFI(Hierarchical Attentive Feature Integration)模块是论文提出的另一个关键模块,用于增强特征在时间维度上的关联,从而提高姿势估计的精度和光顺性。该模块的主要思路是:
    利用过去和未来相邻帧的特征,来增强当前帧的特征表示。采用分层次的注意力特征融合方式,逐步整合邻近帧的信息。具体操作上,HAFI模块包含多个分支,每支分支取输入序列中当前帧附近的3帧(过去1帧、当前帧、未来1帧),进行以下处理:(1) 将3帧特征降维到256维。(2) 拼接3帧特征,经过全连接网络计算出注意力权重。(3) 根据注意力权重整合3帧特征,得到聚合特征。(4) 将多个分支的聚合特征再次按照上述步骤合并,进行分层特征整合。(5) 最终输出融合了过去和未来帧信息的当前帧增强特征。这种分层次的注意力特征整合方式可以增强当前帧和周边帧之间的关联,使网络学习到更强的时间约束, thus生成更准确流畅的姿势估计结果。 ↩︎

  5. MoCA和HAFI两个模块在MPS-Net框架中是串联连接的,形成了一个整体的流程来捕获人体运动的连续性信息。具体的耦合方式是:
    先通过MoCA模块处理输入的视频帧序列,获得集成了非局部上下文信息的时序特征表示。然后将MoCA模块输出的时序特征作为输入,喂入HAFI模块进行分层次的时序特征融合。HAFI模块输出增强融合后的当前帧特征。最后,经过回归器预测该帧的人体姿态参数。可以看出,MoCA模块主要在时间维度上通过注意力机制建模特征之间的长程依赖。而HAFI模块在MoCA模块提取出的时序特征基础上,进一步增强了相邻帧之间的关联,提供了更强的时序约束信息。两者串联形成了一个阶段性的过程:
    MoCA → 强化时序特征的长程依赖;HAFI → 在此基础上增强本地帧间关联;最终输出精炼和增强的当前帧特征,进行姿态回归。这样的耦合方式让网络在不同的时间尺度上都可以学习到人体运动的连续性信息,对于最终的姿态估计精度和平滑性都有帮助。两者协同工作,形成了一个有效的框架。 ↩︎

  6. 自相似矩阵(Self-Similarity Matrix)是反映信号或时间序列中不同位置之间相似性的一种矩阵表示方法。对于一个时间序列或信号{x1, x2, …, xn},其自相似矩阵A是一个n×n的对称矩阵,其中:Aij = f(xi, xj)这里f是某个用来衡量xi和xj之间相似度的函数,比如互相关函数、内积等。
    所以这个矩阵A的每一项Aij表示时间步i和时间步j之间信号的相似度。矩阵对角线上的值表示最大相似度,即信号或时间序列与自身的相似度。自相似矩阵常被用来分析时间序列的周期性、相似模式等信息。在该论文中,它被用来分析视频序列中人体运动的连续性,作为先验知识引导注意力学习。相比直接学习隐式的注意力,自相似矩阵提供了显式的相似性结构信息,可以帮助注意力模块捕获长程依赖关系。它反映了运动的连续性,有利于生成更平滑连贯的人体运动估计结果。 ↩︎

  7. 论文中提到的“人体视觉表示”指的是从视频帧中提取的人体相关的特征表示(feature representation)。具体来说,论文使用 ResNet-50 来从每个视频帧提取一个 2048 维的特征向量,表示输入帧的静态特征。然后这些特征向量构成了一个时间序列,也就是“人体视觉表示”的时间序列。论文构建自相似矩阵时,就是在这个时间序列上构建,来计算人体特征在时间轴上之间的相似性。之所以称之为“人体视觉表示”,是因为这些特征向量是从图像中提取的针对人体的特征,反映了人体在视频帧序列中运动变化的视觉信息。
    这里的“人体视觉表示”可以理解为基于视觉输入的人体相关特征,和真实的人体姿态还有一定差距。论文后续的模块会进一步处理这些特征,以估计出准确的三维人体姿态。
    综上所述,“人体视觉表示”指的是从图像输入中提取的人体相关的特征表示,它反映了人体在视频序列中视觉层面的变化,并被用于构建自相似矩阵8来模拟运动的连续性。 ↩︎

  8. “人体视觉表示”是如何被用来构建自相似矩阵的。
    从视频序列中提取人体视觉表示:对于输入的视频帧序列{I1, I2,…, IN},使用 ResNet-50提取每个帧的2048维特征向量,得到 N 个2048维的特征表示{x1, x2, …, xN}。构建自相似矩阵:基于上一步得到的N个人体视觉特征表示,计算它们之间的相似性构建一个N x N的自相似矩阵A:Aij = f(xi, xj)这里f可以是内积或者余弦相似度 function,用来计算特征向量xi和xj之间的相似度。对角化和标准化:将矩阵A对角化,即Aii = 1。这可以看作是最大化自己与自己的相似度。然后对每一行进行softmax标准化,使得每行的元素和为1。
    经过以上步骤,就得到了人体视觉表示的标准化自相似矩阵,这个矩阵编码了视频序列中人体姿态的相似性信息。后续操作,在论文中,这个自相似矩阵与注意力模块生成的注意力矩阵concat拼接在一起,进行重新标定和调节,从而产生反映运动连续性的MoCA注意力矩阵。整个流程就是从人体视觉表示出发,构建自相似矩阵,再应用到注意力模块中。 ↩︎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值