姿态估计之2D人体姿态估计(1)(仅供个人参考)

本文详细介绍了2D人体姿态估计的各种方法,包括自顶向下和自底向上的策略。自顶下方法先检测人体再预测关键点,如DeepPose、CPN和HRNet,而自底上方法先检测关键点再组合成人体,如OpenPose和HigherHRNet。HRNet因其高分辨率特征学习脱颖而出。此外,还探讨了回归坐标与热图检测、多任务学习、图网络和轻量化模型等技术在姿态估计中的应用。

参考

  1. 自顶向下的 2D 人体姿态估计 - 知乎
  2. 人体姿态估计(Human Pose Estimation)经典方法整理 - 知乎
  3. 2D人体姿态估计浅析 - 知乎
  4. 人体姿态估计中回归出了heatmap如何去计算关键点的坐标位置? - 知乎
  5. 论文阅读 - Deep High-Resolution Representation Learning for Human Pose Estimation
  6. 【HRNet】《Deep High-Resolution Representation Learning for Human Pose Estimation》
  7. 2D 多人姿态估计论文汇总、分类与简介(2022.02.17发布) - 知乎

 第一部分 参见 姿态估计之2D人体姿态估计(1)

第二部分 参见 姿态估计之2D人体姿态估计(2)

0 前言

2D Human Pose Estimation (以下简称 2D HPE) 旨在从图像或者视频中预测人体关节点(或称关键点,比如头,左手,右脚等)的二维空间位置坐标。2D HPE 的应用场景非常广泛,包括动作识别,动画生成,增强现实等。传统的 2D HPE 算法,设计手工特征提取图像信息,从而进行关键点的检测。

当前主流的 2D HPE 方法主要可以分为自底向上(bottom up)和自顶向下(top down)两种方式。自底向上的方法同时预测图片中的所有关键点,然后将不同类型的关键点组合成人体。自顶向下的方法首先检测出输入图片中的一个或者多个人,然后对于每个个体单独预测其关键点。自底向上方法的推断时间不随人数的增加而上升,而自顶向下的方法对于不同尺寸的人体更加鲁棒。

在实际求解时,对人体姿态的估计常常转化为对人体关键点的预测问题,即首先预测出人体各个关键点的位置坐标,然后根据先验知识确定关键点之间的空间位置关系,从而得到预测的人体骨架。

对于2D姿态估计,当下研究的多为多人姿态估计,即每张图片可能包含多个人。解决该类问题的思路通常有两种:top-down和bottom-up:

  1.  top-down的思路是首先对图片进行目标检测,找出所有的人;然后将人从原图中crop出来,resize后输入到网络中进行姿态估计。换言之,top-down是将多人姿态估计的问题转化为多个单人姿态估计的问题
  2. bottom-up的思路是首先找出图片中所有关键点,然后对关键点进行分组,从而得到一个个人。 

通常来说,top-down具有更高的精度,而bottom-up具有更快的速度。top-down的方法将多人姿态估计转换为单人姿态估计,那么网络的输入就是包含一个人的bounding box,网络预测的是人的 k 个关键点坐标。对于关键点的ground truth(对应网络的输出)如何表示有两种思路:

  • ,即直接对坐标进行回归,网络的输出是经过fc层输出的2k 个数字
  • k个heatmap,即为每个关键点预测一个heatmap作为关键点的中间表示,heatmap上的最大值处即对应关键点的坐标。对于改种方法,heatmap的ground truth是以关键点为中心的二维高斯分布(高斯核大小为超参)

早期的工作如DeepPose多为直接回归坐标,当下的工作多数以heatmap作为网络的输出,这种中间表示形式使得回归结果更加精确。

1. 单人姿态估计——回归方法

共4篇
2014.08_(DeepPose) Human Pose Estimation via Deep Neural Networks
首个使用回归方法的级联网络。
2016.06_(IEF) Human Pose Estimation with Iterative Error Feedback
给定初始姿态,使用迭代的方式归回修正姿态。
2017.08_Compositional Human Pose Regression
将骨架向量和关键点一起考虑进网络。
2017.10_Human Pose Regression by Combining Indirect Part Detection and Contextual Information
取最大值方式不可微,用soft_argmax替换。

2. 单人姿态估计——检测(热图)方法

共7篇
2014.09_Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation
开始使用热图检测的方式得到姿态结果。
2015.06_Efficient Object Localization Using Convolutional Networks
是上一篇的扩展。
2016.04_(CPM) Convolutional Pose Machines
每个关键点部位训练一个检测器。
2016.07_(Hourglass) Stacked Hourglass Networks for Human Pose Estimation
堆叠式沙漏结构的级联网络。
2017.02_Multi-Context Attention for Human Pose Estimation
加入了多种注意力机制。
2017.08_Learning Feature Pyramids for Human Pose Estimation
给姿态估计网络加入了多尺度特征金字塔。
2019.02._Cascade Feature Aggregation for Human Pose Estimation

3. 姿态估计——复合方法

共4篇
2016.09_Human pose estimation via Convolutional Part Heatmap Regression
使用先检测后回归的策略。
2018.05_(DSNT) Numerical Coordinate Regression with Convolutional Neural Networks
也是在先检测,再在热图上进行回归,避免不可微操作。
2018.09_Integral Human Pose Regression
也是在先检测,再在热图上进行回归,避免不可微操作。
2021.03_Composite Localization for Human Pose Estimation
先找到近似位置,用预测偏移获取具体位置

4. 多人姿态估计——自上而下

自上而下:先检测人再框出来检测人的姿势
共9篇
2016.08_Multi-Person Pose Estimation with Local Joint-to-Person Associations
2017.04_Towards Accurate Multi-person Pose Estimation in the Wild
2018.02_(AlphaPose) RMPE Regional Multi-person Pose Estimation
2018.04_(CPN) Cascaded Pyramid Network for Multi-Person Pose Estimation
2018.04_Learning to Refine Human Pose Estimation
2018.07_MultiPoseNet: Fast Multi-Person Pose Estimation using Pose Residual Network
2018.08_(Simple Baselines) for Human Pose Estimation and Tracking
2019.01_(CrowdPose) Efficient Crowded Scenes Pose Estimation and A New Benchmark
2019.05_(MSPN) Rethinking on Multi-Stage Networks for Human Pose Estimation

5. 多人姿态估计——自下而上

自下而上:先检测关键点再连接成人的姿势
共12篇
2016.04_(DeepCut) Joint Subset Partition and Labeling for Multi Person Pose Estimation
2017.06_Associative Embedding-End-to-End Learning for Joint Detection and Grouping
2018.11_(OpenPose) Real-time 2D Multi-Person Pose Estimation on CPU: Lightweight OpenPose
2019.04_(PifPaf) Composite Fields for Human Pose Estimation
2019.05_(Openpose) Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
2019.11_(Simple Pose) Rethinking and Improving a Bottom-up Approach for Multi-Person Pose Estimation
2020.03_(HRNet) HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation
2020.06_(HRNet) Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive Keypoint Estimates
2020.07_Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation
2021.04_(HRNet) Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression
2021.04_(Lite-HRNet) A Lightweight High-Resolution Network
2021.07_Human Pose Regression with Residual Log-likelihood Estimation

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值