基于深度学习的三维人体姿态估计

目录

​​​​​一、技术背景

1.1 人体姿态估计

1.2 三维人体重建

1.4 构建多人场景研究情况

二. 技术方法

2.1 基础架构

2.2 重叠loss

2.3 深度顺序感知loss

四.存在的问题与未来研究热点

4.1 本实验方法存在的问题

4.2 未来研究热点

参考文献:


​​​​​一、技术背景

1.1 人体姿态估计

        人体姿态估计(human pose estimation, HPE)已经发展了几十年,一直围绕着从传感器的输入来构建人体姿态。在摄影领域尤为明显,一些基于视觉的人体姿态估计技术就经常被用于摄影技术上。随着深层级神经网络技术的发展,深度学习在图片分类,目标检测,语义分割等方面有着越来越好的表现。人体姿态估计也因为深度学习的运用得到了飞速发展,包括具有很强估计能力的神经网络模型,更加丰富的数据集以及构建愈加完善的人体模型。人体姿态估计的范围及其方法较为广泛,比如电影和动画的人体动作捕捉技术、虚拟现实技术、人机交互技术(humancomputer interaction, HCI)、视频监控和动作识别技术、医疗辅助相关技术、自动驾驶以及体育运动分析等。人体姿态估计的主要难点和挑战在于 1)灵活的身体拥有复杂而独立的关节以及高自由度的四肢容易造成自遮蔽(self-occlusions)或重叠;2)多样的外形包括不同的服饰和自相似的地方;3)复杂的环境导致前景遮蔽现象或者人体部位的相似性以及不同的视角造成的差异。当然人体姿态估计也涉及二维和三维人体模型的区别,不过本文主要讨论的是三维人体模型的重建。

1.2 三维人体重建

        三维人体姿态估计比二维人体姿态估计更具有挑战性,因为三维人体模型还需要去预测身体关节的深度信息,但对于计算机来说,由于投射投影,3D场景投射到2D空间里面,就损失了很多的信息,最明显的就是深度信息,同时诸如光照,材料特性、朝向、距离等信息都反映成唯一的测量值——灰度,因而要从这唯一的测量值恢复上述一个或几个反映物体本质特征的参数是一个解不唯一的问题。观测数据不足以约束问题的解,因此要利用先验知识或引入合适约束。所以从单张图像去理解图像场景的3D结构就很困难了。

        以前的3D模型重构,一般都是通过两个(模拟人的双眼)或者多个摄像头来获取图像,再配准的。当然,也有研究单张图像的,但是都会对场景做很多的假设,例如由明暗恢复形状shape from shading(SFS)(利用单幅图像中物体表面明暗变化恢复其表面各点的法向方向进而求得其相对高度),运用光学辅助等,使用有很大的局限性。现在更多地是利用可以探测深度的摄像头,例如Kinect,一个色彩感知摄像头,另一个红外摄像头用于测图像深度,即可以测量场景中物体到相机的距离,来获取更多的用于重建三维人体模型的信息。

        而随着深度学习在3D人体分析任务取得了巨大的进展,例如在3D关键点估计、3D形状重建、全身3D姿态和形状恢复方面取得了令人印象深刻的效果,估计了更详细和更有表现力的重建。然而,随着对场景和在场景中互动的人的理解越来越全面,从单个图像中连贯地重建多人的3D图像成为重建的关键。关于多人姿势估计,有自上而下的方法。它首先检测场景中的所有身体关节,然后对它们进行分组,即将检测到的关节分配给适当的人。

当在3D中推理多人的姿势时,问题比在2D中三维重建更复杂。例如,重建的人可能在3D空间中相互重叠,或者在深度的估计值与实际不一致。这意味着,对图像进行多人三维重建不仅仅是为每个人单独预测一个合理的3D姿势,也要估计场景中所有人的连贯重建,考虑模型间的整体关系。整体场景的一致性成为这项工作的主要目标。本文讨论的方法采用了典型的自上而下的模型,目标是训练一个深度网络,学习估计场景中所有人的连贯重建。

1.3 单幅图片单人三维人体重建

        对于单人三维姿态估计,一般地都是在图片中形成人体的包围盒,这样就可以减少不必要的人物的检测过程。单人三维姿态估计包含无人体模型的重建方法和基于人体模型的重建方法。无人体模型的方法不采用人体模型作为最终的估计目标或者中间线索。大致的方法类型分为两种:1)直接映射图像到3D姿态,2)从二维位姿估计方法中,根据中间预测的二维位姿估计深度。基于模型的方法通常使用参数化的身体模型或模板来从图像中估计人体的姿态和形状。这些模型通常由单独的身体姿势和形状组件来进行参数化设定。最近一些研究的人体模型是根据对不同人的多次扫描得到的,或者结合一些不同的身体模型得到。比如从图片中获取3D参数的SMPL的身体模型,就可以用来实现单幅图片单人三维人体重建。本文主要讨论的单人三维人体重建和多人三维人体重建都是基于人体模型的三维人体重建。

        Nikos Kolotouros等人[1]提出的基于卷积网格回归的单幅图像人体形状重建方法,对单幅图片重建单个模型效果较好,但对单幅图片重建多个人不理想。它用了一个更加混合的学习方式,保留了SMPL的模板mesh,但是并没有直接回归SMPL的模型参数,而是通过回归模板mesh上的各个点坐标来达到生成想要的人体模型的效果。考虑到人体需要有很多的点来表示,所以用GCN网络。具体从image到mesh的变换学习过程如下图1所示

图1. 从image到mesh的变换学习过程

该方法的主要工作流程:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值