Three-Dimensional Human Pose Estimation with Spatial–Temporal Interaction Enhancement Transformer

人体三维姿态估计是计算机视觉热点,但因自遮挡和深度模糊仍有改进空间。本文提出STFormer方法,分独立提取特征和跨领域信息交流建模两阶段,将时间依赖性注入空间域,细化时间特征。实验表明,该方法在Human3.6数据集上优于近期方法,降低了MPJPE。

基于时空交互增强Transformer的三维人体姿态估计

摘要

人体三维姿态估计是计算机视觉领域的一个研究热点。近年来,在从单目视频估计3D人体姿势方面取得了重大进展,但由于自遮挡和深度模糊的问题,这项任务仍有很大的改进空间。一些先前的工作已经解决了上述问题,调查的时空关系,并取得了很大的进展。在此基础上,我们进一步探讨了时空关系,并提出了一种新的方法,称为STFormer。我们的整个框架包括两个主要阶段:(1)独立于时间域和空间域提取特征;(2)跨领域的信息交流建模。将时间依赖性注入空间域,动态修改关节间的空间结构关系。然后,使用结果来细化时间特征。经过前面的步骤,空间和时间特征都得到了加强,估计的最终姿态将更加精确。我们在一个众所周知的数据集(Human3.6)上进行了大量的实验,结果表明,STFormer在输入9帧的情况下优于最近的方法。与PoseFormer相比,我们的方法的性能将MPJPE降低了2.1%。此外,我们进行了大量的消融研究,以分析和证明STFormer的各个组成模块的有效性。

引言

我们的贡献总结如下:

1.为了从单目视频中更准确地预测3D人体姿势,我们设计了一个时空交互增强的Transformer网络,称为STFormer。STFormer是一个两阶段的方法,其中第一阶段分别从空间和时间域独立地提取特征,第二阶段跨域交互空间和时间信息以丰富表示。

2.在第二阶段中,我们设计了空间重构块和时间细化块。空间重构块将时间特征注入空间域以调整空间结构关系;然后将重构的特征发送到时间细化块以补充时间特征中较弱的帧内结构信息。

方法

图1展示了我们的STFormer的整个框架。我们采用了[11,14,29]中使用的2D到3D提升方法,将2D视频姿势序列作为输入并预测中间帧的3D姿势。提出的两阶段网络STFormer由特征提取(FE)和跨域交互(CDI)。具体地,FE包含两个分支,空间特征提取(SFE)分支和时间特征提取(TFE)分支,其分别负责对人体关节的固有结构和时间依赖性进行建模。CDI包括空间重构(SR)块和时间细化(TR)块,其负责在前一阶段中提取的信息的交互。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值