目录
人体姿态识别概述
应用模块:人机交互、运动分析、增强现实、虚拟现实
目的:精确的估计关节位置和姿势信息
存在问题:姿势变化、遮挡、尺度变化、训练数据不足、深度模糊
论文框架
HPE分类
2D HPE:通过在2D图像或视频中估计姿势。
3D HPE:三维空间中完成更复杂的任务,尤其是真实环境中。
基于单人:
1. 回归:基于深度学习回归直接将输入图像到人体关节坐标进行映射
2. 身体部位检测:
(1)生成关键点(关节)的热图用于身体部位定位;
(2)将检测到的关键点组装成整个身体的姿势或骨架
基于多人:
1. 自上而下:先检测人,然后利用单人HPE预测每个人的关键点来构造人体姿势
2. 自下而上:先检测身体关键点,然后将关键点组合成单独的姿势(不知道人数)
人体建模模型
要点:从输入数据中提取关键点和特征
方法:N关节刚性运动学模型
补充:刚体——不变形的物体
刚体模型: 将人体看作刚体(即不变形的物体),通过关节和链接建立关系,以模拟关节的运动。这种模型适用于对关节运动的基本仿真。
常用模型:
(1)运动学模型(基于骨架模型 / 运动链模型)
优点:图形表示灵活直观
局限性:表示纹理和形状信息方面存在局限性
(2)平面模型:利用近似人体轮廓的矩形表示
(3)体积模型
二维单人姿态估计
1. 应用背景
用于定位单人图像中的人体关节位置。当输入的图像包含多个人时,通常会先对先对图像进行裁剪,确保每个裁剪的部分只包含一个人(通过上半身检测器 / 全身检测器自动完成)
2. 单人姿势估计方法
i. 回归方法:通过学习从输入图像到人体关节位置或人体模型参数的映射。这种方法的目标是直接回归出人体关键点的坐标或其他相关参数——关键点坐标映射
ii.基于热图方法(heatmap):旨在预测身体部位和关节的近似位置,通过热图来表示这些位置。热图是一种表示,其中图像上的每个点都对应于人体的某个部位,颜色或强度表示该部位的置信度。
回归方法
目前发展
1. DeepPose——基于AlexNet的级联深度神经网络回归
2. 端到端的回归方法,采用Soft-argmax函数,将特征映射转为关节坐标。 soft-argmax是一种允许通过概率分布的加权平均来计算具有最大概率的位置的函数
3. Transformer-based casecade network——基于transformer的级联网络,用于回归人体关键点。通过自我注意力机制(self-attention mechanism)来捕捉关节之间的空间相关性和外观信息
4. Compositional pose regression(结构感知回归方法)——基于ResNet-50的结构感知回归方法——组合姿态回归,采用人体信息和姿态结构的重新参数化的基于骨骼的表示方法
5. RLE(Log-likelihood Estimation)——正则化流模型,用于捕捉关节位置的分布。目的是通过残差对数似然估计来找到优化的参数
优化
关键点:特征质量
策略:多任务学习共享表示——学习更好的特征表示。多任务学习通过在相关任务之间共享表示,例如姿势估计和基于姿势的动作识别,使模型能够更好地泛化到原始任务(姿势估计)。
1. 异构多任务框架
包含两个任务:
i. 第一个任务通过回归器从完整图像中预测关节坐标。
ii.第二个任务通过使用滑动窗口从图像块中检测身体部位。
通过在两个不同的任务之间共享表示,增强模型在姿势估计任务上的性能。
2. 双源CNN模型(DS-CNN)
包含两个任务:
i. 第一个任务是关节检测,用于确定图像块是否包含人体关节。
ii.第二个任务是关节定位,用于找到图像块中关节的确切位置。
损失函数: 每个任务对应一个损失函数,两个任务的结合导致了性能的提升。
基于热图的方法
由每个关节点位置上添加2D高斯核生成2D热图
假设有K个关键点,则有K个热图{H1,H2,...,HK},热图中的每个像素值Hi(x, y)表示关键点位于位置(x, y)的概率。
训练过程:使用姿态估计网络,通过最小化预测热图与目标热图之间的差异(均方误差 MSE)来进行训练
与关节点坐标相比,热图保留了空间位置信息,同时