论文阅读 Multi-Scale Structure-Aware Network for Human Pose Estimation

最新推荐文章于 2024-02-13 00:07:19 发布

原创最新推荐文章于 2024-02-13 00:07:19 发布 · 3.3k 阅读

CC 4.0 BY-SA版权

本文提出了一种改进的人体姿态估计方法，包括多尺度监督网络(MSS-net)以解决尺度间不连续的问题，多尺度回归网络(MSR-net)以增强人体关节的一致性，以及structure-aware损失和keypoint masking训练策略来提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、
文章在hourglass的网络基础上做了四点改进
1）多尺度监督来加强语义特征学习来融合多尺度的特征
2）多尺度的回归网络来优化整体的人体结构
3）structure-aware损失（在多尺度监督和回归中都有用到）来提升关键点的匹配度和邻近关键点的关系从而推测一个高阶的配置（就是刻画临近关键点的关系）
4）keypoint masking作为数据扩增的方式

2、传统网络的缺陷
1）大部分方法在某一个尺度上过度拟合，使得某一个尺度的结果占据主导的地位，引起了尺度的不稳定，通常的方法是不断的前传各个尺度的图片进行测试，选取分数最高的结果。
2）没有足够的结构先验，所以文章中的structure-aware,回归网络和keypoint masking的样本扩充都能够对结构先验有益处。

3、
1) MSS-net
初衷：设计MSS-net初衷是解决尺度间的不连续
MSS-net是一个多尺度监督的网络，就是在原来的hourglass网络的deconv层的不同的分辨率的输出设置不同分辨率的监督，1/2,1/4,1/8的尺度下各进行监督，因为这些尺度下的输出的channel数量不是等于关键点的数量，所以需要通过1x1的卷积将map的通道数量变为关键点的个数，例如coco是17。对于各级监督来讲的话，将标签按照1/2,1/4,1/8进行下采样即可获得，这样的多尺度的监督网络类似于用在传统的分辨率金字塔中的attention模型。低分辨率的监督对高分辨率的监督有着引导作用。
网络结构

2）MSR-net
初衷：对多尺度的heatmap图做一个refine的调整来提升人体的各个关节的全局一致性
MSR-net以上一层的输出作为自己的输入。多尺度的回归网络学习到了尺度不变性和基于attention机制的模型，所以会有更好的表现性能。具体作用可以参考下图
这里写图片描述

3）structure-aware的损失
普通的损失计算仅仅会计算每个关键点的损失，然后把损失加在一起，但是structure-aware的损失不仅仅会加起来各个关键点的损失，还会把胳膊肘对应的关键点（肘+腕=2个，肘+肩=2个，肩+肘+腕=3个）这样集体性的损失加在一起，形成最后的损失，作者认为这样可以构建出他们需要的high-order associations,具体的损失计算考虑哪些关系可以参考下图
这里写图片描述
structure-aware损失在MSS-net和MSR-net中都有用到

4）Keypoint Masking Training
简单来说就是数据中遮挡等困难情况太少，作者做了个数据扩充，人为创建遮挡和以及人为构建歧义部位图像
这里写图片描述