3D human pose estimation in video with temporal convolutions and semi-supervised training

本文提出一种基于二维关键点的时间空洞卷积全卷积模型,用于视频三维人体姿态估计,解决了多3D姿势映射至同一2D关键点的问题,并通过半监督学习利用未标记数据增强模型性能。

Abstract

Introduction

工作重点:

  • 视频三位人体姿态估计

难点:

  • 多个3D姿势可以映射到相同的2D关键点(模糊性);
  • 低资源,缺乏标记数据;

方法:

  • 提出了一种基于二维关键点轨迹上的时间卷积的视频三维人体姿态估计方法:该结构在二维关键点上执行时间卷积,可降低复杂度和参数个数;
  • 利用未标记数据进行半监督学习,使用现成的2D键点检测器预测未标记视频的2D键点,预测3D姿态,然后将它们映射回2D空间(只需要摄像机的内部参数);

Related work

  • 两步走方法(先预测2D关键点然后提升到三维空间),受益于中间监督,效果优于端到端;
  • 使用关键点坐标定位而非热图(heatmap计算成本高,准确性取决于分表率);
  • 对时间进行一维卷积;
  • 使用Mask R-CNN和CPN,相比stacked hourglass更具有鲁棒性。

Temporal dilated convolutional model

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值